🍭

(211020) Diary: Vision-Language Representation Learning

211020 Diary Vision-BERT

최근, 절친한 (엘리트) 친구와 함께 리뷰한 Vision-Language Representation Papers (V+L Models).

간략한 개념 정리 및 기록들..!

(ECCV 2020) UNITER: UNiversal Image-TExt Representation Learning

Contributions

•

특정 V+L Tasks에 Specific하게 학습된 기존의 V+L 모델들과 달리 Image-Text의 Universal Representation을 학습하는 모델 제안

•

Pre-Training에서 Text 혹은 Image(Region)에만 Masking을 하는 Conditional Masking, OT-based Word-Region Alignment Task를 수행

•

다양한 V+L Tasks에서 SOTA 달성

Model

•

기본적으로 Multi-Layer Transformer 구조

•

Faster R-CNN을 활용한 Image의 Region Feature+Location Feature를 FC Layer에 Feed 하여 모델 Input으로 사용

•

Text의 경우 Vanilla BERT와 동일하게 WordPiece Tokenizer+Position Embedding

Pre-Training Tasks

•

Masked Language Modeling (MLM)

◦

일반적인 MLM이지만, Region은 건드리지 않는(Conditional) 점이 핵심

◦

훼손되지 않은 Region을 바탕으로 Masked Token을 예측(Full Observation)하기 때문에 Word-Region 간 Misalignment를 방지할 수 있음

◦

이는 MRM에서도 동일하게 적용

•

Image-Text Matching (ITM)

◦

Input Sentence와 Image(Regions)의 Matching 여부 판별

•

Word-Region Alignment (WRA)

◦

Optimal Transport(OT)를 활용하는데, Word-Region을 Align하는 Transport Plan, T가 존재

◦

T는 n(Words) x n(Regions) Matrix로 Transformer의 Attention Matrix와 유사한 개념으로 이해

◦

T값이 큰 Word와 Region의 Cosine Distance가 작아지도록 학습

•

Masked Region Modeling (MRM)

◦

Masked Region Feature Regression (MRFR): Prediction과 (Ground Truth) Region Feature 간 MSE Loss 활용

◦

Masked Region Classification (MRC): Faster R-CNN의 Detected Category를 Ground Truth로 하여 Cross-Entropy Loss 활용

◦

MRC with KL-Divergence (MRC-KL): MRC에서 Ground Truth를 Soft Label로 치환하여 KL-Divergence 활용

하나의 Mini-Batch당 1개의 Task를 선택하여 학습 수행!

(NIPS 2020) Large-Scale Adversarial Training for Vision-and-Language Representation Learning

VILLA는 UNITER와 같은 V+L 모델의 학습에 Adversarial Training(AT)을 활용하는 기법이다. VILLA의 AT에서 PGD(Projected Gradient Descent)를 사용하는데, 해당 내용을 몰라 공부하다가 감사하게도 잘 정리된 Blog를 찾아 공유한다. VILLA의 AT는 MLM, MRM, ITM의 Pre-Training+Fine-Tuning 모두에 적용할 수 있으며, 논문의 Contributions는 다음과 같다.

•

Image의 Pixel, Raw Text가 아닌 Embedding Space에 Adversarial Attack 수행

•

PGD의 Computational Cost를 줄인 Free AT Strategy 적용

•

Training Objective에 KL-Divergence Regularization Term을 추가하여 Smoothness 향상