🧁

(211030) Review: TextSETTR: Few-Shot Text Style Extraction and Tunable Targeted Restyling

ACL 2021에서 발표된 Text Style Transfer에 관한 Google Research Paper. Labeled Dataset 없이 학습이 가능한 점이 Key Point. Inference에서는 Style-Labeled Data가 일부 필요하지만(Few-Shot), Data 수에 Gain이 비례하지 않아 종속적이지 않음.

Problems: Previous Methods

기존의 Text Style Transfer 기법들은 Labeled Dataset을 필요로 함.
기법들은 Label 형태에 따라 다음과 같이 구분할 수 있음.
Supervised
각 Style에 상응하는 문장 쌍들 필요
Parallel Dataset (on Translation)과 유사
Unsupervised
각 Style별 문장들 필요
Monolingual Dataset과 유사
Few-Shot
Labeled Dataset이 필요하지 않음
다만, Inference에서 일부 Labeled Data 필요

Proposed Model: TextSETTR

기본적으로 Lample의 (Unsupervised) 연구에서 착안함. Lample은 Facebook에서 Parallel Data 없이 Translation을 수행하는 연구들을 했던 것으로 아는데, Style Transfer가 Translation과 결이 비슷하다 보니 이에 관한 연구도 진행하지 않았을까..? 생각함.
(Corrupted) Input 문장의 Style 정보 (Style Vector)를 참고하여 Denoising을 수행하는 것이 학습의 핵심 아이디어
Style 정보는 Style Extractor를 활용하여 인접한 문장으로부터 추출: 인접한 문장은 동일한 Style일 것으로 가정
Pre-Trained LM이 충분한 Style Representation 능력을 학습했을 것으로 생각하여 Pre-Trained T5를 Base로 Fine-Tuning 수행
Style Extractor는 T5의 Encoder와 동일한 구조이며(단, 마지막에 Mean Pooling 수행), Style Vector는 Encoder의 Final Hidden States에 더해 줌
3종류의 Corruption 기법이 있으며, 각 Loss들을 더하여 Final Loss로 사용함.
Noise (N)
단순 Noising으로 Token들을 Drop, Replace, Shuffle (각 20~60% 확률)
학습 시, Token들의 Add & Delete Rate을 Decoder에 명시하며, 이는 Inference에서 Tunable (Flexible) Transfer를 가능케 함
Back Translation (BT)
Input을 Inference Mode의 현재 LM으로 Back Translation 수행
Style Vector를 추출하는 문장은 Random Sampling
Noisy Back Translation (NBT)
Noise+Back Translation
본문에서 저자는 NBT가 BT보다 Style Transfer에 적합하다고 주장하지만, 실제 실험 결과는 그렇지 못함
Inference는 다음 과정과 같음.
Source & Target Style-Labeled 문장들을 (대략 100개씩) Sampling하여 각 Style Vector들을 Averaging: v_src, v_trg
Input 문장의 Style Vector (v_x)를 추출하고, Source ->Target 방향으로 Style Vector 정의: v_x+lambda*(v_trg-v_src)

Experiments & Results

Sentiment Transfer 실험을 통해 TextSETTR의 성능을 보임.
Amazon Reviews의 다중 문장 Data 사용
Fine-Tuned BERT Classifier로 Sentiment Transfer Accuracy 측정
SacreBLEU로 self-BLEU (Content Preservation) 측정
통합 성능으로 G-Score 사용
Noise(Drop+Replace)+Noisy Back Translation으로 학습한 Baseline
주요 실험 결과를 정리하면,
Sentiment Accuracy와 Content Preservation은 Trade-Off 관계
TextSETTR는 기존의 Few-Shot 기법들보다 좋은 성능을 보이며, Labeled Data로 학습한 기법들에 준함
표에서 N+NBT가 N+BT에 비해 좋은 성능을 보이지만, 주석에 따르면 Tunable Inference를 통해 N+BT의 성능을 N+NBT 이상으로 향상시킬 수 있음
Inference에서 더 많은 문장들을 Sampling하여도 Gain이 크지 않음
Small Dataset으로도 잘 동작함