🍭

(211028) Diary: Multimodal(V-L) Few-Shot Learning

최근에 혼자 너무 재미있고 신기하여 감탄하면서 본 논문..!
지난 주, Vision-Language Representation (V-L Models)에 이어서 리뷰한 Multimodal Few-Shot Learning Paper.
GPT-3와 같은 Large Scale Auto-Regressive LM이 여러 NLP Task에서 좋은 Few-Shot Learning 성능을 보이듯이, Multimodal (V+L) 환경에서도 동일하게 활용될 수 있지 않을까..? 고찰한 Research.

(DeepMind, 2021) Multimodal Few-Shot Learning with Frozen Language Models

논문에서는 Pre-Trained LM의 Parameter는 Update하지 않고, Image를 (LM의 Input으로 활용할 수 있도록) Token의 Embedding Space로 Mapping하는 별도의 Vision Encoder를 학습시켜 Few-Shot Learning을 수행: Frozen Method.
학습은 Conceptual Captions Dataset의 Image-Caption 쌍을 LM의 Input으로 하여 Conventional LM Objective로 수행: Vision Encoder만 학습. 실험을 통해 LM을 Fine-Tuning하는 것이 오히려 성능의 Degradation을 유발함을 증명.
실험을 통해 3종류의 Task에서 Few-Shot Learner로서의 능력을 확인함.
1.
Rapid Task Adaptation
Image-Caption Data로 학습되었지만, VQA Task에 Transfer될 수 있음을 보임
2.
Encyclopedic Knowledge
Wikipedia와 같은 사전적 지식을 묻는 VQA Task에 활용될 수 있음
LM이 Large Corpus를 학습하면서 관련 내용을 알고 있기 때문: Pre-Trained LM 크기에 성능 비례
3.
Fast Concept Binding
특정 Category에 실제와는 다른 명칭을 부여하는 Open-Ended & Real-Name miniImageNet & Fast-VQA Task에 활용
Open-Ended: 강아지->dax, 고양이->blicket 등 Nonsense 명칭 부여
Real-Name: 강아지->회사, 고양이->카페 등 실존하는 다른 명칭 부여
몇 개의(Few) In-Context 예시(Shot)로부터 Image와 Text의 연관성을 학습할 수 있음을 보임