210902 Diary BERT
현재, 회사에서 주로(100%) 다루는 데이터는 Text Data로, 특정 분야(Specific Domain)의 데이터만을 집중적으로 처리한다. 최근에 Pre-Trained Language Model을 Sentence BERT처럼 Fine-Tuning하여 Sentence Embedding 성능을 측정하였는데, 생각보다 좋지 못한 결과를 얻었다. 아마 LM이 Domain-Specific한 정보를 갖지 못하기 때문이라고 생각은 하지만, 아직 데이터를 구축하는 과정이라 LM의 Further Pre-Training(Domain Adaptation)을 수행하기에 (양적으로) 무리가 있는 상황이다. 아무튼, 손놓고 있을 수만은 없어서 다른 연구를 수행하며, 관련 논문들을 Searching하는 중에 재미있는 것들이 있어 기록해두려고 한다.
(ACL 2020) Don't Stop Pretraining: Adapt Language Models to Domains and Tasks
이 논문은 최근에 리뷰했던 DEMIX Layers 저자의 과거 논문으로, 작년 연구실에서 읽은 경험이 있다. 특별한 내용이 있다기보다는 Domain-Specific Data로 LM의 Further Pre-Training을 수행하는 DAPT와 Downstream Task Data로 학습을 수행하는 TAPT의 유효성을 실험을 통해 잘 정리해 놓았다는 점에서 좋은 논문이라고 생각한다. 개인적으로 Allen AI의 논문들이 내용도 재미있고, 잘 읽혀서 선호하는 편이다..ㅎㅎ
(EMNLP 2020) exBERT: Extending Pre-trained Models with Domain-specific Vocabulary Under Constrained Training Resources
Pre-Trained Tokenizer는 Domain-Specific한 단어들을 여러 개의 Subwords로 분해하는 문제를 일으키는데, 이를 해결하기 위해서는 Vocab을 재구성해야 하고 → 이는 즉, LM을 다시 학습시켜야 한다는 뜻이 된다. 본 논문은 본래 Vocab은 건드리지 않고, Domain-Specific한 Extension Vocab과 Embedding Layer, LM을 추가 구축하여 Adaptation을 수행한다. 무엇보다 Extension Module의 크기가 작고, 적은 양의 Domain Data로도 Competitive한 성능을 보인다는 장점이 있다.
이 외에 실제 Domain Adaptation을 수행한, Specific LM의 사례들도 있다. 대표적으로 BioBERT와 SciBERT가 있으며, 법률적인 Data로 학습된 LEGAL-BERT라는 모델도 있다. LEGAL-BERT 저자는 법률적인 NLP를 주제로 꾸준히 ACL+EMNLP에 (Short Paper라도) 투고를 하는 듯 보이는데, 나도 회사에서 일하면서 Specific한 주제라도 꾸준히 Publication을 내는 날이 오지 않을까.. 꿈 꿔봤다. 공부해야겠다.. 