211010 Diary BERT
ํ์ฌ์์ ํ๊ธ๋ก ์์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๊ณ , ๊ณผ๊ฑฐ ์ฐ๊ตฌ์ค์์ ์์ด(ํน์ ํ๊ธ) Corpus๋ง์ ๋ค๋ฃจ์๋ ๋๋ ๋ค์ํ ์ธ์ด๋ฅผ ์ง์ํ๋ LM(s)์ ๋ํด ์๊ฐํด ๋ณผ ๊ธฐํ๊ฐ ๊ฑฐ์ ์์๋ค. ์ต๊ทผ ๊ณต๋ถ๋ฅผ ํ๋ ์ค XLM ๋
ผ๋ฌธ์ ๋ณด๊ฒ ๋์๊ณ , ์ค์ค๋ก ํด๋น ๋ด์ฉ(Multi, Cross-Lingual LM)์ ๊ดํ ์ง์์ด ๋ถ์กฑํ๋ค๊ณ ํ๋จํ์ฌ ๊ด๋ จ ์ฐ๊ตฌ๋ค์ ์ฐพ์ ๊ฐ๋ตํ๊ฒ ์ดํด๋ณด์๋ค.
Multilingual LM: BERT
KoBERT๋ฅผ ์์์ผ๋ก KoELECTRA, KLUE-RoBERTa ๋ฑ ์ฑ๋ฅ์ด ์ข์ ํ๊ตญ์ด LM๋ค์ด ๋ฑ์ฅํ๊ธฐ ์ด์ ์๋ Google์์ ๊ณต๊ฐํ Multilingual Cased BERT(M-BERT)๋ฅผ ์ฃผ๋ก ์ฌ์ฉํ๋ค๊ณ ํ๋ค. Multilingual LM์ด๋ ๋ณต์์ ์ธ์ด๋ก ๊ตฌ์ฑ๋ Corpus๋ฅผ ํ์ตํ ๋ชจ๋ธ๋ก, M-BERT์ ๊ฒฝ์ฐ 100์ฌ ๊ฐ์ ์ธ์ด๋ฅผ ํ์ตํ๊ณ , ์ธ์ด๋ค ๊ฐ์ 110K Size์ WordPiece Vocab์ ๊ณต์ ํ๋ค. M-BERT๋ ์ผ๋ฐ์ ์ธ BERT์ ๋์ผํ ๋ฐฉ์์ผ๋ก ํ์ต๋์์์๋, Zero-Shot Cross-Lingual Transfer(Generalization)์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
Cross-Lingual LM: XLM
Cross-Lingual LM์ ๋จ์ํ ๋ณต์์ ์ธ์ด๋ฅผ ํ์ตํ๋ Multilingualํ ๋ฐฉ์+๋ค๋ฅธ ์ธ์ด์ ๋์ผํ ํํ๋ค์ ์ ์ฌํ Embedding Space๋ก Mappingํ๋๋ก ํ์ตํ ๋ชจ๋ธ์ด๋ค. M-BERT๋ ๋์ผํ Embedding Space์ ๋ชจ๋ ์ธ์ด ํํ๋ค์ Mappingํ์ง๋ง, ๊ฐ์ ์๋ฏธ์ ํํ๋ค์ด ์ ์ฌํ Embedding ๊ฐ์ ๊ฐ๋๋ก ํ์ตํ์ง ์์๊ธฐ์ Cross-Lingualํ๋ค๊ณ ๋ณผ ์ ์๋ค. ๊ทธ๋ผ์๋ Google ๋
ผ๋ฌธ์ ์ํ๋ฉด, ์ธ์ด๋ค์ Typological Features(SVO ์์ ๋ฑ)๊น์ง Catchํ๋ Multilingual Representation ๋ฅ๋ ฅ์ผ๋ก ์ธํด Cross-Lingual Generalization์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์๋ค๊ณ ํ๋ค.
Cross-Lingual Training Objective๋ฅผ ํตํด LM์ ๋ช
์์ ์ผ๋ก ํ์ต์ํฌ ์ ์๋๋ฐ, Facebook์์ ๊ด๋ จ ์ฐ๊ตฌ๋ค์ ๋ง์ด ์ํํ๋ ๋ฏ ํ๋ค. ์ฐ๊ตฌ์ค์์ Unsupervised Translation์ ์ํ Facebook์ Cross-Lingual Word & Sentence Embedding ๋
ผ๋ฌธ์ ์ฝ์ ์ ์ด ์๋ค. XLM ์ญ์ ๋์ผํ ์ ์์ ์ฐ๊ตฌ๋ก, ๋ค์๊ณผ ๊ฐ์ด ๊ฐ๋ตํ ๋ด์ฉ์ ์ถ๋ฆด ์ ์๋ค.
โข
Monolingual Data๋ฅผ ํ์ฉํ๋ Unsupervised Pre-Taining Objectives 2๊ฐ: Casual LM(CLM), Masked LM(MLM) ์ ์
โข
Parallel Data๋ฅผ ํ์ฉํ๋ Supervised Pre-Training Objective: Translation LM(TLM) ์ ์
โข
CLM, MLM, MLM+TLM์ผ๋ก XNLI, Supervised & Unsupervised Translation์์ SOTA์ ์ฑ๋ฅ์ ๋
โข
๋ฌด์๋ณด๋ค Labeled Data๊ฐ ๋ง์ ์ธ์ด์์ ์ ์ ์ธ์ด๋ก Cross-Lingual Transfer๋ฅผ ํตํด Training Resource๊ฐ ๋ถ์กฑํ ์ธ์ด์ LM ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์