211020 Diary Vision-BERT
최근, 절친한 (엘리트) 친구와 함께 리뷰한 Vision-Language Representation Papers (V+L Models).
간략한 개념 정리 및 기록들..!
(ECCV 2020) UNITER: UNiversal Image-TExt Representation Learning
Contributions
•
특정 V+L Tasks에 Specific하게 학습된 기존의 V+L 모델들과 달리 Image-Text의 Universal Representation을 학습하는 모델 제안
•
Pre-Training에서 Text 혹은 Image(Region)에만 Masking을 하는 Conditional Masking, OT-based Word-Region Alignment Task를 수행
•
다양한 V+L Tasks에서 SOTA 달성
Model
•
기본적으로 Multi-Layer Transformer 구조
•
Faster R-CNN을 활용한 Image의 Region Feature+Location Feature를 FC Layer에 Feed 하여 모델 Input으로 사용
•
Text의 경우 Vanilla BERT와 동일하게 WordPiece Tokenizer+Position Embedding
Pre-Training Tasks
•
Masked Language Modeling (MLM)
◦
일반적인 MLM이지만, Region은 건드리지 않는(Conditional) 점이 핵심
◦
훼손되지 않은 Region을 바탕으로 Masked Token을 예측(Full Observation)하기 때문에 Word-Region 간 Misalignment를 방지할 수 있음
◦
이는 MRM에서도 동일하게 적용
•
Image-Text Matching (ITM)
◦
Input Sentence와 Image(Regions)의 Matching 여부 판별
•
Word-Region Alignment (WRA)
◦
Optimal Transport(OT)를 활용하는데, Word-Region을 Align하는 Transport Plan, T가 존재
◦
T는 n(Words) x n(Regions) Matrix로 Transformer의 Attention Matrix와 유사한 개념으로 이해
◦
T값이 큰 Word와 Region의 Cosine Distance가 작아지도록 학습
•
Masked Region Modeling (MRM)
◦
Masked Region Feature Regression (MRFR): Prediction과 (Ground Truth) Region Feature 간 MSE Loss 활용
◦
Masked Region Classification (MRC): Faster R-CNN의 Detected Category를 Ground Truth로 하여 Cross-Entropy Loss 활용
◦
MRC with KL-Divergence (MRC-KL): MRC에서 Ground Truth를 Soft Label로 치환하여 KL-Divergence 활용
하나의 Mini-Batch당 1개의 Task를 선택하여 학습 수행!
(NIPS 2020) Large-Scale Adversarial Training for Vision-and-Language Representation Learning
VILLA는 UNITER와 같은 V+L 모델의 학습에 Adversarial Training(AT)을 활용하는 기법이다. VILLA의 AT에서 PGD(Projected Gradient Descent)를 사용하는데, 해당 내용을 몰라 공부하다가 감사하게도 잘 정리된 Blog를 찾아 공유한다. VILLA의 AT는 MLM, MRM, ITM의 Pre-Training+Fine-Tuning 모두에 적용할 수 있으며, 논문의 Contributions는 다음과 같다.
•
Image의 Pixel, Raw Text가 아닌 Embedding Space에 Adversarial Attack 수행
•
•
Training Objective에 KL-Divergence Regularization Term을 추가하여 Smoothness 향상