🍭

(211020) Diary: Vision-Language Representation Learning

211020 Diary Vision-BERT
최근, 절친한 (엘리트) 친구와 함께 리뷰한 Vision-Language Representation Papers (V+L Models).
간략한 개념 정리 및 기록들..!

(ECCV 2020) UNITER: UNiversal Image-TExt Representation Learning

Contributions
특정 V+L Tasks에 Specific하게 학습된 기존의 V+L 모델들과 달리 Image-Text의 Universal Representation을 학습하는 모델 제안
Pre-Training에서 Text 혹은 Image(Region)에만 Masking을 하는 Conditional Masking, OT-based Word-Region Alignment Task를 수행
다양한 V+L Tasks에서 SOTA 달성
Model
기본적으로 Multi-Layer Transformer 구조
Faster R-CNN을 활용한 Image의 Region Feature+Location Feature를 FC Layer에 Feed 하여 모델 Input으로 사용
Text의 경우 Vanilla BERT와 동일하게 WordPiece Tokenizer+Position Embedding
Pre-Training Tasks
Masked Language Modeling (MLM)
일반적인 MLM이지만, Region은 건드리지 않는(Conditional) 점이 핵심
훼손되지 않은 Region을 바탕으로 Masked Token을 예측(Full Observation)하기 때문에 Word-Region 간 Misalignment를 방지할 수 있음
이는 MRM에서도 동일하게 적용
Image-Text Matching (ITM)
Input Sentence와 Image(Regions)의 Matching 여부 판별
Word-Region Alignment (WRA)
Optimal Transport(OT)를 활용하는데, Word-Region을 Align하는 Transport Plan, T가 존재
T는 n(Words) x n(Regions) Matrix로 Transformer의 Attention Matrix와 유사한 개념으로 이해
T값이 큰 Word와 Region의 Cosine Distance가 작아지도록 학습
Masked Region Modeling (MRM)
Masked Region Feature Regression (MRFR): Prediction과 (Ground Truth) Region Feature 간 MSE Loss 활용
Masked Region Classification (MRC): Faster R-CNN의 Detected Category를 Ground Truth로 하여 Cross-Entropy Loss 활용
MRC with KL-Divergence (MRC-KL): MRC에서 Ground Truth를 Soft Label로 치환하여 KL-Divergence 활용
하나의 Mini-Batch당 1개의 Task를 선택하여 학습 수행!

(NIPS 2020) Large-Scale Adversarial Training for Vision-and-Language Representation Learning

VILLA는 UNITER와 같은 V+L 모델의 학습에 Adversarial Training(AT)을 활용하는 기법이다. VILLA의 AT에서 PGD(Projected Gradient Descent)를 사용하는데, 해당 내용을 몰라 공부하다가 감사하게도 잘 정리된 Blog를 찾아 공유한다. VILLA의 AT는 MLM, MRM, ITM의 Pre-Training+Fine-Tuning 모두에 적용할 수 있으며, 논문의 Contributions는 다음과 같다.
Image의 Pixel, Raw Text가 아닌 Embedding Space에 Adversarial Attack 수행
PGD의 Computational Cost를 줄인 Free AT Strategy 적용
Training Objective에 KL-Divergence Regularization Term을 추가하여 Smoothness 향상