🧁

(210821) Review: Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks

210821 Review Sentence Embedding Domain Adaptation

Sentence BERT(SBERT)의 후속편 느낌으로 NAACL 2021에서 발표된 논문이다. SBERT와 마찬가지로 이해하기 쉬우면서도 실제로 유용하게 활용할 수 있는 연구로 생각된다.

Problem: Bi-Encoders

주어진 문장 쌍의 유사도 등을 계산하는 Pairwise Sentence Scoring Tasks에서 Cross-Encoder 방식으로 학습된 BERT 모델은 좋은 성능을 보이지만, Computational Cost가 num(문장)^2에 비례하여 증가하는 단점이 있다. Sentence BERT(SBERT)는 Bi-Encoder 방식의 Fine-Tuning으로 위의 문제를 완화시켰지만, Cross-Encoder 모델에 준하는 성능을 내기 위해서는 많은 양의 Training Data를 필요로 한다는 한계를 갖는다. 아래 표를 보면 동일한 수의 Training Data로 학습을 수행했을 때 Bi-Encoder가 Cross-Encoder에 비해 낮은 성능을 보임을 확인할 수 있다.

본 논문은 Cross-Encoder 모델로 Training Data를 증강하여 Bi-Encoder 모델의 성능을 향상시키는 방안(or 모델)을 제시한다. 실험을 통해 4개의 서로 다른 Task에서 제안 방식의 효과를 보이고, 더 나아가 Domain Adaptation에도 활용할 수 있는 여지를 남긴다.

Proposed Model: Augmented SBERT

제안 방식의 Process는 위 그림과 같다. Gold Dataset으로부터 강력한 성능의 Cross-Encoder 모델을 학습시키고, Unlabeled 문장 쌍들을 해당 모델로 Soft-Labeling하여 Silver Dataset을 얻는다. 이후, Silver Dataset을 Gold Dataset에 추가하여 Bi-Encoder 모델(Augmented SBERT)을 Fine-Tuning하는 순서이다. 이 때, Unlabeled 문장 쌍들은 새로운 데이터 or Gold Dataset의 문장들을 재조합한 것들인데 본 논문에서는 후자를 선택한다. 또한, Labeling된 데이터들을 모두 Fine-Tuning에 사용하는 것이 양적으로 유리해 보이지만 실제로는 성능 향상에 기여하지 못하며, Computational Overhead도 증가시킨다고 언급한다. 논문에서 강조하는 점들 중 하나가 바로 "Unlabeled 문장 쌍들로부터 Silver Dataset을 Sampling하는 방법"인데, 저자는 그 방안으로 다음과 같은 Sampling 기법들을 제안한다.

•

Random Sampling (RS)

말 그대로 Gold Dataset의 문장들을 랜덤하게 추출하여 문장 쌍을 구성하는 방법.

그러나 대부분의 쌍이 Negative하여 실제 데이터 분포와 다른(Skewed) 문제가 발생.

•

Kernel Density Estimation (KDE)

KDE를 활용하여 Continuous한 데이터(Score) 확률 분포를 계산: F_gold(s), F_silver(s)

F_gold(s), F_silver(s)간 KL Divergence(확률 분포 차이)를 줄이는 방향으로 문장 추출: Q(s)

(예시) 문장 쌍을 랜덤하게 추출하였는데 Score가 2점이다. Gold Dataset에서 2점짜리 문장 쌍의 등장 확률과 현재까지 Sampling한 Silver Dataset에서 2점짜리 문장 쌍의 등장 확률을 비교한다. → Silver Dataset에서의 확률이 낮으면 추출한 문장 쌍을 추가하고, 그렇지 않다면 일정 확률(F_gold(s) / F_silver(s))로 추가한다.

이와 같은 방법은 실제 Score 분포와 비슷한 Dataset을 구축할 수 있는 장점이 있지만, 사용하지 않을 데이터에 대한 계산을 수행하는 비효율성이 존재한다.

•

BM25 Sampling (BM25)

ElasticSearch를 활용하여 BM25 Score기반 유사한 Top k개의 문장 쌍들을 추출하고, 이를 Cross-Encoder 모델로 Labeling.

•

Semantic Search Sampling (SS)

BM25 Score는 비슷한 단어를 포함하는 문장들을 유사하다고 판단함(NOT Semantic).

이를 보완하기 위해 Gold Dataset으로 Bi-Encoder 모델을 학습시키고, 해당 모델을 통해 유사한 문장 쌍들을 추출.

•

BM25+Semantic Search Sampling (BM25-SS)

BM25와 Semantic Search Sampling을 동시에 수행.

Sampling 기법 이외에 본 논문에서는 Seed Optimization을 제안한다. Bi-Encoder 모델은 Cross-Encoder 모델에 비해 Random Seed에 민감하기 때문에, 서로 다른 5개의 Random Seed로 모델들을 일정 기간(Early Stopping at 20% of training steps) 학습시키고, 가장 성능이 좋은 모델의 학습만을 끝마치는 방식이다.

Domain Adaptation with Augmented SBERT

일반적인 Bi-Encoder 모델은 Test Data의 Domain이 Training Data와 일치하지 않는 Out-of-Domain 환경에서 좋지 않은 성능을 보인다. 본 논문은 Silver Dataset을 Target Domain의 Unlabeled 문장 쌍들로부터 구축하고, Silver Dataset만으로 Augmented SBERT을 Fine-Tuning하는 Domain Adaptation 기법을 제안한다.

Experiments & Results

•

In-Domain Experiments

다음과 같은 총 4개의 Downstream Task+Dataset에서 모델의 성능을 평가한다.

◦

Spanish-STS (STS)

◦

BWS (Argument Similarity)

문장 쌍이 다루는 쟁점(총 8가지)의 유사도를 계산하는 Task.

▪

In-Topic: 8가지 쟁점의 데이터로 학습을 수행.

▪

Cross-Topic: 6가지 쟁점의 데이터로 학습 수행 및 다른 2가지 쟁점의 데이터로 Test.

◦

Quora-QP (Duplicate Question Detection)

Training Data의 수가 적은 경우를 가정하기 위해 Down-Sampling 수행.

◦

MRPC (News Paraphrase Identification)

위 실험 결과를 살펴보면 기본적으로 Cross-Encoder 방식의 BERT가 가장 좋은 성능을 보이는 것을 확인할 수 있다.

Seed Optimization은 BERT에 큰 영향을 주지 못하지만, Bi-Encoder 방식의 SBERT에는 유의미한 성능 향상을 이끌어낸다. 특히, Training Data의 수가 상대적으로 적은 Spanish-STS에서 이러한 현상이 두드러진다.

Random Sampling을 제외하면 Augmented SBERT가 SBERT에 비해 전반적으로 좋은 성능을 보인다. 그 중에서도 KDE와 BM25 Sampling이 특히 좋은 성능을 보이는데 일부 Dataset에서는 BERT를 능가하기도 한다. 저자는 Computation 측면에서 더 효율적인 BM25 Sampling을 추천한다.

Sampling 기법들 간에 성능 차이가 나는 이유는 아래 그림을 통해 유추할 수 있다. Random Sampling은 실제 Score 분포에 비해 특히 작은 값의 문장 쌍들을 추출한다. 반면, 성능이 좋은 BM25 Sampling의 경우 실제와 비슷한 Score 분포의 문장 쌍들을 추출하며, 무엇보다 유사 문장 쌍의 비율이 높다.

•

Domain Adaptation Experiments

Duplicate Question Detection Task에서 서로 다른 4가지 Domain의 Dataset을 사용한다.

◦

AskUbuntu

◦

Quora

◦

Sprint

◦

SuperUser

실험 결과, 거의 모든 조합에서 Domain Adaptation을 수행한 Augmented SBERT가 SBERT에 비해 좋은 성능을 보임을 알 수 있다. 일부 조합에서는 In-Domain Training Data로 학습된 SBERT를 능가하는 모습도 확인할 수 있다. 저자에 의하면 (당연하게도) Source Data가 General할 수록, Target Data가 Specific할 수록 Domain Adaptation의 효과가 증가한다고 한다.