저번 달, arXiv에 공개된 (ICLR 2022 Submission인 듯) Google의 Multi-Task Pre-Training Research.
LM의 Pre-Training시에 Unsupervised Task (MLM, Span Denoising 등) 외에 다양한 Supervised Task들을 추가한 Google의 Multi-Task Learning Research.
이전에도 유사한 연구들 (T5, MT-DNN 등)이 존재하였으나, 본 연구에서는 Supervised Task의 종류를 107개로 Largely Scaling함.
사실, T5 논문을 읽을 당시에는 Multi-Task Learner 파트에 큰 의미를 두지 않았으나, 최근 연구하는 Data-To-Text Generation의 각종 Benchmark에서 T5가 상위권에 위치하길래 공부해보니 Multi-Task Learner 버전의 T5가 좋은 성능을 보인다는 사실 (논문)을 알게 됨.
이러한 배경을 바탕으로 한 Google식의 Up-Scaling 연구.
Proposed Model: ExT5
본 논문에서는 모든 NLP Task를 Text-To-Text Generation 형태로 처리하는 T5에 Multi-Task Learning을 적용한 ExT5 모델을 제안함.
Pre-Training시에 다양한 Supervised Task들을 추가한 ExMix (Extreme Mixture) Multi-Task Learning에 관한 핵심 내용을 정리하면,
•
Co-Training (Multi-Task Fine-Tuning)에서 도움이 되는 Task들만을 추가하는 것은 정답이 아님 (성능 향상의 폭이 작음)
•
Random하게 다양한 Task들을 추가하는 편이 일반적으로 성능 향상의 폭이 큼
•
(Multi-Task) Pre-Finetuning보다는 Pre-Training이 유리함 (그러나 Pre-Finetuning 역시 의미 있는 성능 향상을 이끌어 냄)
•
학습 시에 Unsupervised Task는 여전히 필수적이며, Supervised Task들과의 비율에 따라 성능이 달라짐
•
Batch Size가 크고, Task의 종류가 다양할수록 좋은 성능을 보임
실험 결과, 대부분의 Downstream Tasks에서 ExT5가 동일한 크기의 T5를 능가하는 성능을 보임.