🍭

(211212) Diary: ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning

저번 달, arXiv에 공개된 (ICLR 2022 Submission인 듯) Google의 Multi-Task Pre-Training Research.
LM의 Pre-Training시에 Unsupervised Task (MLM, Span Denoising 등) 외에 다양한 Supervised Task들을 추가한 Google의 Multi-Task Learning Research.
이전에도 유사한 연구들 (T5, MT-DNN 등)이 존재하였으나, 본 연구에서는 Supervised Task의 종류를 107개로 Largely Scaling함.
사실, T5 논문을 읽을 당시에는 Multi-Task Learner 파트에 큰 의미를 두지 않았으나, 최근 연구하는 Data-To-Text Generation의 각종 Benchmark에서 T5가 상위권에 위치하길래 공부해보니 Multi-Task Learner 버전의 T5가 좋은 성능을 보인다는 사실 (논문)을 알게 됨.
이러한 배경을 바탕으로 한 Google식의 Up-Scaling 연구.

Proposed Model: ExT5

본 논문에서는 모든 NLP Task를 Text-To-Text Generation 형태로 처리하는 T5에 Multi-Task Learning을 적용한 ExT5 모델을 제안함.
Pre-Training시에 다양한 Supervised Task들을 추가한 ExMix (Extreme Mixture) Multi-Task Learning에 관한 핵심 내용을 정리하면,
Co-Training (Multi-Task Fine-Tuning)에서 도움이 되는 Task들만을 추가하는 것은 정답이 아님 (성능 향상의 폭이 작음)
Random하게 다양한 Task들을 추가하는 편이 일반적으로 성능 향상의 폭이 큼
(Multi-Task) Pre-Finetuning보다는 Pre-Training이 유리함 (그러나 Pre-Finetuning 역시 의미 있는 성능 향상을 이끌어 냄)
학습 시에 Unsupervised Task는 여전히 필수적이며, Supervised Task들과의 비율에 따라 성능이 달라짐
Batch Size가 크고, Task의 종류가 다양할수록 좋은 성능을 보임
실험 결과, 대부분의 Downstream Tasks에서 ExT5가 동일한 크기의 T5를 능가하는 성능을 보임.