210920 Review Domain Adaptation
ACL 2021์์ ๋ฐํ๋ ๋
ผ๋ฌธ์ผ๋ก, n-grams ์ ๋ณด๋ฅผ Data์ ํจ๊ป Feed ํด์ค์ผ๋ก์จ LM์ด Domain-Specific Data์ Representations๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก ํ๋ ๊ธฐ๋ฒ์ ์ ์ํ๋ค. ์ง๊ด์ ์ด๊ณ ๊ฐ๋จํ ๋ฐฉ์๊ณผ Low-Resource๋ก๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ์ ์ด ๋
ผ๋ฌธ์ ๊ฐ๋ ฅํ ์ฅ์ ์ด๋ผ๊ณ ์๊ฐํ๋ค.
Problems: Domain Adaptation
Generic Data๋ก ํ์ต๋ LM์ Domain-Specificํ Downstream Task์ผ์๋ก, ํด๋น Data Set์์ ์ฑ๋ฅ์ด Degradation๋๋ ์ฑํฅ์ ๋ณด์ธ๋ค. ์ต๊ทผ ์ฐ๊ตฌ๋ค์ Domain-Specific Data๋ฅผ ํ์ฉํ LM์ Further Pre-Training(DAPT)์ด ์ฑ๋ฅ ๊ฐ์ ์ ๋์์ด ๋จ์ ์ฆ๋ช
ํ๊ณ ์์ผ๋, ์ ๋ฐฉ๋ฒ ์ญ์ ๋ช ๊ฐ์ง ๋ฌธ์ ์ ์ ๊ฐ๋๋ค. ์ ์๋ DAPT์ ๋ฌธ์ ๋ก ํฌ๊ฒ 2๊ฐ์ง์ ์ฃผ๋ชฉํ๋๋ฐ,
โข
๋ง์ ์์ Domain-Specific Data๊ฐ ํ์ํ๋ค๋ ์
โข
Generic, Domain-Specific Data์ Gap์ Word Level์์๋ง ๋ค๋ฃจ๊ณ ์๋ค๋ ์
์ด๋ค. 2๋ฒ์งธ ๋ฌธ์ ๊ฐ ๋ณธ ๋
ผ๋ฌธ์์ ํต์ฌ์ ์ผ๋ก ๋ค๋ฃจ๋ ๋ด์ฉ์ผ๋ก, ๊ธฐ์กด์ ์ฐ๊ตฌ๋ค์ด Domain-Specificํ ๋จ์ด๋ค์ Generic Tokenizer๊ฐ ์ฌ๋ฌ ๊ฐ์ Subwords๋ก ๋ถํดํ๋ ๋ฌธ์ ์๋ง ์ง์คํจ์ ์ง์ ํ๋ค. ์ ์๋ Domain Gap์ด ๊ฐ๋ณ ๋จ์ด๊ฐ ์๋, ๋จ์ด๋ค(n-grams) ํน์ ๊ตฌ(Phrases) ์ฐจ์์์ ๋ฐ์ํ๋ค๊ณ ์ฃผ์ฅํ๋ฉฐ, ์ด๋ฅผ ๋ท๋ฐ์นจํ๋ 2๊ฐ์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ค.
์ฒซ ๋ฒ์งธ๋ Fine-Tuned Generic RoBERTa๋ก IMDB Data Set์ ๋ถ๋ฅํ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํ๋ ์คํ์ด๋ค. LM์ด ์ ํํ(Correct)/์๋ชป(False) ๋ถ๋ฅ(Prediction)ํ Data๋ค์ด Domain-Specific n-grams๋ฅผ ํฌํจํ๋ ๋น์จ์ ๊ณ์ฐ ๋ฐ ๋น๊ตํ๋ ๋ด์ฉ์ด๋ค. Domain-Specific n-grams๋ Wikipedia Page์ ์์ฃผ ์ถํํ๋ Top 10K๋ฅผ ์ ์ธํ ๊ฒ๋ค์ด๋ฉฐ, Correct/False Predictions์์ ๊ฐ๊ฐ ์ถ์ถํ ๋น๋์ Top 1K n-grams์์ ์ด๋ค์ด ํฌํจ๋๋ ๋น์จ์ ์๋จ ํ์ ์ ๋ฆฌํ์๋ค. ์คํ ๊ฒฐ๊ณผ, ์๋ชป ๋ถ๋ฅ๋ Data๋ค์์ ๋ ๋ง์ Domain-Specific n-grams๊ฐ ํฌํจ๋์ด ์์์ ํ์ธํ ์ ์๋ค.
๋ ๋ฒ์งธ๋ Generic RoBERTa์ (์ถํ์ ์๊ฐํ ) ์ ์ ๊ธฐ๋ฒ์ผ๋ก ํ์ตํ RoBERTa+T-DNA๊ฐ ํน์ Domain Data๋ฅผ Embeddingํ ๊ฒ์ Attention Map๊ณผ Salience Map(์๋จ ํ)์ ํตํด ๊ด์ฐฐ+๋น๊ตํ๋ ์คํ์ด๋ค. Generic RoBERTa๋ RoBERTa+T-DNA์ ๋ฌ๋ฆฌ creepy animated, scary as hell๊ณผ ๊ฐ์ด ์๋ฏธ์ ์ผ๋ก ์ค์ํ n-grams ํํ๋ค์ ํ์
ํ์ง ๋ชปํ๋ ์ (False Prediction)์ ์ ์ ์๋ค.
์ ์๋ ์์ ์คํ๋ค๋ก ์์ ์ ์ฃผ์ฅ์ ์ฆ๋ช
ํ๋ฉฐ, Low Domain-Specific Resources๋ก Domain Data์ Representations๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๋ ๊ธฐ๋ฒ์ ์ ์ํ๋ค.
Proposed Method(Model): T-DNA
์ ์ ๊ธฐ๋ฒ์ ํต์ฌ ์์ด๋์ด๋ Fine-Tuning ํน์ Task-Adaptive Pre-Training(TAPT) ์์ Domain-Specific n-grams ์ ๋ณด๋ฅผ Data์ ํจ๊ป ๋ชจ๋ธ์ ๋ช
์์ ์ผ๋ก Feed ํด์ฃผ๋ ๊ฒ์ด๋ค. ์ ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์๋ฐ, ์ผ๋ฐ์ ์ธ BERT์ฒ๋ผ Data๋ฅผ Embeddingํ๋ ์ฐ์ธก์ Generic Pre-Trained Encoder, Data์ ํฌํจ๋ Domain-Specific n-grams๋ฅผ Embeddingํ๋ ์ค๋จ์ Adaptor Network, ๊ทธ๋ฆฌ๊ณ ์ต์ข
์ ์ผ๋ก 2๊ฐ์ Representations๋ฅผ ํฉ์น๋ ์๋จ์ Module๋ก ๊ตฌ์ฑ๋์ด ์๋ค. Adaptor Network ์ญ์ Transformer Encoder ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ ์ Data๋ฅผ ํ์ตํ๊ธฐ ๋๋ฌธ์ ๋จ์ธต์ผ๋ก ๊ตฌ์ฑ๋๋ค๊ณ ํ๋ค. ๋ํ, ์ด๊ธฐ n-gram Embeddings๋ก๋ FastText๊ฐ ํ์ฉ๋๋ค.
Data์์ Domain-Specific n-grams๋ฅผ ์ถ์ถํ๋ ๊ณผ์ ์ ํ์ต์์ ๊ฐ์ฅ ์ค์ํ๋ค ํด๋ ๊ณผ์ธ์ด ์๋๋ฉฐ, ๊ตฌ์ฒด์ ์ธ Process๋ ๋ค์๊ณผ ๊ฐ๋ค.
โข
์ฃผ์ด์ง ๋ฌธ์ฅ์์ ์ธ์ ํ๋ ๋ ๋จ์ด๋ค์ PMI Score๋ฅผ ๊ณ์ฐ
โข
์ธ์ ํ ํน์ ๋ ๋จ์ด์ Score๊ฐ Threshold ์ดํ์ผ ๋, ๋จ์ด๋ค ์ฌ์ด์ Delimiter(๊ตฌ๋ถ์)๋ฅผ ํ์
โข
Delimiter๊ฐ ์๋ ์ฐ์๋ ๋จ์ด๋ค์ Sequence๋ฅผ ๋ชจ๋ Candidate๋ก ์ฒ๋ฆฌ
Data๋ฅผ ๊ตฌ์ฑํ๋ ํน์ Token(i)์ ์ต์ข
Representations๋ Generic Encoder Embedding(h_i)+Adaptor Network Embeddings(g_i,k)๊ฐ ๋๋ฉฐ, Generic Encoder์ ๊ฐ Layer๋ง๋ค ํด๋น ์ฐ์ฐ์ด ๋ฐ๋ณต๋๋ค.
Experiments & Results
์คํ์ ์ฌ์ฉํ Data Sets๋ 4๊ฐ Domain์์ 8๊ฐ์ Classification Tasks์ด๋ค.
โข
Biomedical Sciences: ChemProt, RCT
โข
Computer Science: CitationIntenet, SciERC
โข
News: HyperPartisan, AGNews
โข
Reviews: Amazon, IMDB
Low-Resource Setting์ ์ํด, RCT, AGNews, Amazon, IMDB์ ๊ฒฝ์ฐ Data ์๋ฅผ Downsamplingํ๋ค.
์คํ์ Generic RoBERTa(-base)๋ฅผ Fine-Tuning ํน์ TAPT ํ๋ ๊ณผ์ ์์ ์ ์ ๊ธฐ๋ฒ(T-DNA)์ ์ ์ฉํ ๋์ ํ์ง ์์ ๋์ ์ฑ๋ฅ์ ๋น๊ตํ๋ ๋ฐฉ์์ผ๋ก ์ํ๋๋ค. ์คํ ๊ฒฐ๊ณผ๋ ์๋จ์ ํ์ ๊ฐ์ผ๋ฉฐ, Fine-Tuning๊ณผ TAPT์์ ๋ชจ๋ ์ ์ ๊ธฐ๋ฒ์ด ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋์ ํ์ธํ ์ ์๋ค.
์ถ๊ฐ์ ์ธ ์คํ์ ํตํด Domain-Specific n-grams์ Granularity(์ต๋ n๊ฐ)๋ฅผ ์ฆ๊ฐ์ํฌ์๋ก ์ฑ๋ฅ ํฅ์์ ํญ๋ ์ ์ง์ ์ผ๋ก ์ฆ๊ฐํจ์ ํ์ธํ ์ ์์ผ๋ฉฐ, Data์ ์๊ฐ ์ถฉ๋ถํ ์ํฉ์์๋ ์ ์ ๊ธฐ๋ฒ์ด ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋์ ์ ์ ์๋ค(์๋จ์ ํ ์ฐธ์กฐ). ๋ค๋ง, Data์ ์๊ฐ ์ฆ๊ฐํ๋ฉด ์ ์ ๊ธฐ๋ฒ์ ํจ๊ณผ๊ฐ ๋ฏธ๋ฏธํด์ง๋๋ฐ, ์ด๋ Data๊ฐ ์ถฉ๋ถํ๋ค๋ฉด ๊ธฐ์กด์ ํ์ต์ผ๋ก๋ ๋ชจ๋ธ์ด ์ข์ Representations๋ฅผ ํ์ตํ ํ๋ฅ ์ด ํฌ๊ธฐ ๋๋ฌธ์ด๋ค.