210821 Review Sentence Embedding Domain Adaptation
Sentence BERT(SBERT)์ ํ์ํธ ๋๋์ผ๋ก NAACL 2021์์ ๋ฐํ๋ ๋
ผ๋ฌธ์ด๋ค. SBERT์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ดํดํ๊ธฐ ์ฌ์ฐ๋ฉด์๋ ์ค์ ๋ก ์ ์ฉํ๊ฒ ํ์ฉํ ์ ์๋ ์ฐ๊ตฌ๋ก ์๊ฐ๋๋ค.
Problem: Bi-Encoders
์ฃผ์ด์ง ๋ฌธ์ฅ ์์ ์ ์ฌ๋ ๋ฑ์ ๊ณ์ฐํ๋ Pairwise Sentence Scoring Tasks์์ Cross-Encoder ๋ฐฉ์์ผ๋ก ํ์ต๋ BERT ๋ชจ๋ธ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, Computational Cost๊ฐ num(๋ฌธ์ฅ)^2์ ๋น๋กํ์ฌ ์ฆ๊ฐํ๋ ๋จ์ ์ด ์๋ค. Sentence BERT(SBERT)๋ Bi-Encoder ๋ฐฉ์์ Fine-Tuning์ผ๋ก ์์ ๋ฌธ์ ๋ฅผ ์ํ์์ผฐ์ง๋ง, Cross-Encoder ๋ชจ๋ธ์ ์คํ๋ ์ฑ๋ฅ์ ๋ด๊ธฐ ์ํด์๋ ๋ง์ ์์ Training Data๋ฅผ ํ์๋ก ํ๋ค๋ ํ๊ณ๋ฅผ ๊ฐ๋๋ค. ์๋ ํ๋ฅผ ๋ณด๋ฉด ๋์ผํ ์์ Training Data๋ก ํ์ต์ ์ํํ์ ๋ Bi-Encoder๊ฐ Cross-Encoder์ ๋นํด ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ ํ์ธํ ์ ์๋ค.
๋ณธ ๋
ผ๋ฌธ์ Cross-Encoder ๋ชจ๋ธ๋ก Training Data๋ฅผ ์ฆ๊ฐํ์ฌ Bi-Encoder ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ์(or ๋ชจ๋ธ)์ ์ ์ํ๋ค. ์คํ์ ํตํด 4๊ฐ์ ์๋ก ๋ค๋ฅธ Task์์ ์ ์ ๋ฐฉ์์ ํจ๊ณผ๋ฅผ ๋ณด์ด๊ณ , ๋ ๋์๊ฐ Domain Adaptation์๋ ํ์ฉํ ์ ์๋ ์ฌ์ง๋ฅผ ๋จ๊ธด๋ค.
Proposed Model: Augmented SBERT
์ ์ ๋ฐฉ์์ Process๋ ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค. Gold Dataset์ผ๋ก๋ถํฐ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ Cross-Encoder ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , Unlabeled ๋ฌธ์ฅ ์๋ค์ ํด๋น ๋ชจ๋ธ๋ก Soft-Labelingํ์ฌ Silver Dataset์ ์ป๋๋ค. ์ดํ, Silver Dataset์ Gold Dataset์ ์ถ๊ฐํ์ฌ Bi-Encoder ๋ชจ๋ธ(Augmented SBERT)์ Fine-Tuningํ๋ ์์์ด๋ค. ์ด ๋, Unlabeled ๋ฌธ์ฅ ์๋ค์ ์๋ก์ด ๋ฐ์ดํฐ or Gold Dataset์ ๋ฌธ์ฅ๋ค์ ์ฌ์กฐํฉํ ๊ฒ๋ค์ธ๋ฐ ๋ณธ ๋
ผ๋ฌธ์์๋ ํ์๋ฅผ ์ ํํ๋ค. ๋ํ, Labeling๋ ๋ฐ์ดํฐ๋ค์ ๋ชจ๋ Fine-Tuning์ ์ฌ์ฉํ๋ ๊ฒ์ด ์์ ์ผ๋ก ์ ๋ฆฌํด ๋ณด์ด์ง๋ง ์ค์ ๋ก๋ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ์ง ๋ชปํ๋ฉฐ, Computational Overhead๋ ์ฆ๊ฐ์ํจ๋ค๊ณ ์ธ๊ธํ๋ค. ๋
ผ๋ฌธ์์ ๊ฐ์กฐํ๋ ์ ๋ค ์ค ํ๋๊ฐ ๋ฐ๋ก "Unlabeled ๋ฌธ์ฅ ์๋ค๋ก๋ถํฐ Silver Dataset์ Samplingํ๋ ๋ฐฉ๋ฒ"์ธ๋ฐ, ์ ์๋ ๊ทธ ๋ฐฉ์์ผ๋ก ๋ค์๊ณผ ๊ฐ์ Sampling ๊ธฐ๋ฒ๋ค์ ์ ์ํ๋ค.
โข
Random Sampling (RS)
๋ง ๊ทธ๋๋ก Gold Dataset์ ๋ฌธ์ฅ๋ค์ ๋๋คํ๊ฒ ์ถ์ถํ์ฌ ๋ฌธ์ฅ ์์ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ.
๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ ์์ด Negativeํ์ฌ ์ค์ ๋ฐ์ดํฐ ๋ถํฌ์ ๋ค๋ฅธ(Skewed) ๋ฌธ์ ๊ฐ ๋ฐ์.
โข
Kernel Density Estimation (KDE)
KDE๋ฅผ ํ์ฉํ์ฌ Continuousํ ๋ฐ์ดํฐ(Score) ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ์ฐ: F_gold(s), F_silver(s)
F_gold(s), F_silver(s)๊ฐ KL Divergence(ํ๋ฅ ๋ถํฌ ์ฐจ์ด)๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ๋ฌธ์ฅ ์ถ์ถ: Q(s)
(์์) ๋ฌธ์ฅ ์์ ๋๋คํ๊ฒ ์ถ์ถํ์๋๋ฐ Score๊ฐ 2์ ์ด๋ค. Gold Dataset์์ 2์ ์ง๋ฆฌ ๋ฌธ์ฅ ์์ ๋ฑ์ฅ ํ๋ฅ ๊ณผ ํ์ฌ๊น์ง Samplingํ Silver Dataset์์ 2์ ์ง๋ฆฌ ๋ฌธ์ฅ ์์ ๋ฑ์ฅ ํ๋ฅ ์ ๋น๊ตํ๋ค.
โ Silver Dataset์์์ ํ๋ฅ ์ด ๋ฎ์ผ๋ฉด ์ถ์ถํ ๋ฌธ์ฅ ์์ ์ถ๊ฐํ๊ณ , ๊ทธ๋ ์ง ์๋ค๋ฉด ์ผ์ ํ๋ฅ (F_gold(s) / F_silver(s))๋ก ์ถ๊ฐํ๋ค.
์ด์ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ค์ Score ๋ถํฌ์ ๋น์ทํ Dataset์ ๊ตฌ์ถํ ์ ์๋ ์ฅ์ ์ด ์์ง๋ง, ์ฌ์ฉํ์ง ์์ ๋ฐ์ดํฐ์ ๋ํ ๊ณ์ฐ์ ์ํํ๋ ๋นํจ์จ์ฑ์ด ์กด์ฌํ๋ค.
โข
BM25 Sampling (BM25)
ElasticSearch๋ฅผ ํ์ฉํ์ฌ BM25 Score๊ธฐ๋ฐ ์ ์ฌํ Top k๊ฐ์ ๋ฌธ์ฅ ์๋ค์ ์ถ์ถํ๊ณ , ์ด๋ฅผ Cross-Encoder ๋ชจ๋ธ๋ก Labeling.
โข
Semantic Search Sampling (SS)
BM25 Score๋ ๋น์ทํ ๋จ์ด๋ฅผ ํฌํจํ๋ ๋ฌธ์ฅ๋ค์ ์ ์ฌํ๋ค๊ณ ํ๋จํจ(NOT Semantic).
์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด Gold Dataset์ผ๋ก Bi-Encoder ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , ํด๋น ๋ชจ๋ธ์ ํตํด ์ ์ฌํ ๋ฌธ์ฅ ์๋ค์ ์ถ์ถ.
โข
BM25+Semantic Search Sampling (BM25-SS)
BM25์ Semantic Search Sampling์ ๋์์ ์ํ.
Sampling ๊ธฐ๋ฒ ์ด์ธ์ ๋ณธ ๋
ผ๋ฌธ์์๋ Seed Optimization์ ์ ์ํ๋ค. Bi-Encoder ๋ชจ๋ธ์ Cross-Encoder ๋ชจ๋ธ์ ๋นํด Random Seed์ ๋ฏผ๊ฐํ๊ธฐ ๋๋ฌธ์, ์๋ก ๋ค๋ฅธ 5๊ฐ์ Random Seed๋ก ๋ชจ๋ธ๋ค์ ์ผ์ ๊ธฐ๊ฐ(Early Stopping at 20% of training steps) ํ์ต์ํค๊ณ , ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ ํ์ต๋ง์ ๋๋ง์น๋ ๋ฐฉ์์ด๋ค.
Domain Adaptation with Augmented SBERT
์ผ๋ฐ์ ์ธ Bi-Encoder ๋ชจ๋ธ์ Test Data์ Domain์ด Training Data์ ์ผ์นํ์ง ์๋ Out-of-Domain ํ๊ฒฝ์์ ์ข์ง ์์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๋ณธ ๋
ผ๋ฌธ์ Silver Dataset์ Target Domain์ Unlabeled ๋ฌธ์ฅ ์๋ค๋ก๋ถํฐ ๊ตฌ์ถํ๊ณ , Silver Dataset๋ง์ผ๋ก Augmented SBERT์ Fine-Tuningํ๋ Domain Adaptation ๊ธฐ๋ฒ์ ์ ์ํ๋ค.
Experiments & Results
โข
In-Domain Experiments
๋ค์๊ณผ ๊ฐ์ ์ด 4๊ฐ์ Downstream Task+Dataset์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ค.
โฆ
Spanish-STS (STS)
โฆ
BWS (Argument Similarity)
๋ฌธ์ฅ ์์ด ๋ค๋ฃจ๋ ์์ (์ด 8๊ฐ์ง)์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ Task.
โช
In-Topic: 8๊ฐ์ง ์์ ์ ๋ฐ์ดํฐ๋ก ํ์ต์ ์ํ.
โช
Cross-Topic: 6๊ฐ์ง ์์ ์ ๋ฐ์ดํฐ๋ก ํ์ต ์ํ ๋ฐ ๋ค๋ฅธ 2๊ฐ์ง ์์ ์ ๋ฐ์ดํฐ๋ก Test.
โฆ
Quora-QP (Duplicate Question Detection)
Training Data์ ์๊ฐ ์ ์ ๊ฒฝ์ฐ๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด Down-Sampling ์ํ.
โฆ
MRPC (News Paraphrase Identification)
์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ๊ธฐ๋ณธ์ ์ผ๋ก Cross-Encoder ๋ฐฉ์์ BERT๊ฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
Seed Optimization์ BERT์ ํฐ ์ํฅ์ ์ฃผ์ง ๋ชปํ์ง๋ง, Bi-Encoder ๋ฐฉ์์ SBERT์๋ ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋ธ๋ค. ํนํ, Training Data์ ์๊ฐ ์๋์ ์ผ๋ก ์ ์ Spanish-STS์์ ์ด๋ฌํ ํ์์ด ๋๋๋ฌ์ง๋ค.
Random Sampling์ ์ ์ธํ๋ฉด Augmented SBERT๊ฐ SBERT์ ๋นํด ์ ๋ฐ์ ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๊ทธ ์ค์์๋ KDE์ BM25 Sampling์ด ํนํ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋๋ฐ ์ผ๋ถ Dataset์์๋ BERT๋ฅผ ๋ฅ๊ฐํ๊ธฐ๋ ํ๋ค. ์ ์๋ Computation ์ธก๋ฉด์์ ๋ ํจ์จ์ ์ธ BM25 Sampling์ ์ถ์ฒํ๋ค.
Sampling ๊ธฐ๋ฒ๋ค ๊ฐ์ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ๋๋ ์ด์ ๋ ์๋ ๊ทธ๋ฆผ์ ํตํด ์ ์ถํ ์ ์๋ค. Random Sampling์ ์ค์ Score ๋ถํฌ์ ๋นํด ํนํ ์์ ๊ฐ์ ๋ฌธ์ฅ ์๋ค์ ์ถ์ถํ๋ค. ๋ฐ๋ฉด, ์ฑ๋ฅ์ด ์ข์ BM25 Sampling์ ๊ฒฝ์ฐ ์ค์ ์ ๋น์ทํ Score ๋ถํฌ์ ๋ฌธ์ฅ ์๋ค์ ์ถ์ถํ๋ฉฐ, ๋ฌด์๋ณด๋ค ์ ์ฌ ๋ฌธ์ฅ ์์ ๋น์จ์ด ๋๋ค.
โข
Domain Adaptation Experiments
Duplicate Question Detection Task์์ ์๋ก ๋ค๋ฅธ 4๊ฐ์ง Domain์ Dataset์ ์ฌ์ฉํ๋ค.
โฆ
AskUbuntu
โฆ
Quora
โฆ
Sprint
โฆ
SuperUser
์คํ ๊ฒฐ๊ณผ, ๊ฑฐ์ ๋ชจ๋ ์กฐํฉ์์ Domain Adaptation์ ์ํํ Augmented SBERT๊ฐ SBERT์ ๋นํด ์ข์ ์ฑ๋ฅ์ ๋ณด์์ ์ ์ ์๋ค. ์ผ๋ถ ์กฐํฉ์์๋ In-Domain Training Data๋ก ํ์ต๋ SBERT๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต๋ ํ์ธํ ์ ์๋ค. ์ ์์ ์ํ๋ฉด (๋น์ฐํ๊ฒ๋) Source Data๊ฐ Generalํ ์๋ก, Target Data๊ฐ Specificํ ์๋ก Domain Adaptation์ ํจ๊ณผ๊ฐ ์ฆ๊ฐํ๋ค๊ณ ํ๋ค.