🧁

(211030) Review: TextSETTR: Few-Shot Text Style Extraction and Tunable Targeted Restyling

ACL 2021에서 발표된 Text Style Transfer에 관한 Google Research Paper. Labeled Dataset 없이 학습이 가능한 점이 Key Point. Inference에서는 Style-Labeled Data가 일부 필요하지만(Few-Shot), Data 수에 Gain이 비례하지 않아 종속적이지 않음.

Problems: Previous Methods

기존의 Text Style Transfer 기법들은 Labeled Dataset을 필요로 함.

기법들은 Label 형태에 따라 다음과 같이 구분할 수 있음.

•

Supervised

◦

각 Style에 상응하는 문장 쌍들 필요

◦

Parallel Dataset (on Translation)과 유사

•

Unsupervised

◦

각 Style별 문장들 필요

◦

Monolingual Dataset과 유사

•

Few-Shot

◦

Labeled Dataset이 필요하지 않음

◦

다만, Inference에서 일부 Labeled Data 필요

Proposed Model: TextSETTR

기본적으로 Lample의 (Unsupervised) 연구에서 착안함. Lample은 Facebook에서 Parallel Data 없이 Translation을 수행하는 연구들을 했던 것으로 아는데, Style Transfer가 Translation과 결이 비슷하다 보니 이에 관한 연구도 진행하지 않았을까..? 생각함.

•

(Corrupted) Input 문장의 Style 정보 (Style Vector)를 참고하여 Denoising을 수행하는 것이 학습의 핵심 아이디어

•

Style 정보는 Style Extractor를 활용하여 인접한 문장으로부터 추출: 인접한 문장은 동일한 Style일 것으로 가정

•

Pre-Trained LM이 충분한 Style Representation 능력을 학습했을 것으로 생각하여 Pre-Trained T5를 Base로 Fine-Tuning 수행

•

Style Extractor는 T5의 Encoder와 동일한 구조이며(단, 마지막에 Mean Pooling 수행), Style Vector는 Encoder의 Final Hidden States에 더해 줌

3종류의 Corruption 기법이 있으며, 각 Loss들을 더하여 Final Loss로 사용함.

•

Noise (N)

◦

단순 Noising으로 Token들을 Drop, Replace, Shuffle (각 20~60% 확률)

◦

학습 시, Token들의 Add & Delete Rate을 Decoder에 명시하며, 이는 Inference에서 Tunable (Flexible) Transfer를 가능케 함

•

Back Translation (BT)

◦

Input을 Inference Mode의 현재 LM으로 Back Translation 수행

◦

Style Vector를 추출하는 문장은 Random Sampling

•

Noisy Back Translation (NBT)

◦

Noise+Back Translation

◦

본문에서 저자는 NBT가 BT보다 Style Transfer에 적합하다고 주장하지만, 실제 실험 결과는 그렇지 못함

Inference는 다음 과정과 같음.

•

Source & Target Style-Labeled 문장들을 (대략 100개씩) Sampling하여 각 Style Vector들을 Averaging: v_src, v_trg

•

Input 문장의 Style Vector (v_x)를 추출하고, Source ->Target 방향으로 Style Vector 정의:
v_x+lambda*(v_trg-v_src)

Experiments & Results

Sentiment Transfer 실험을 통해 TextSETTR의 성능을 보임.

•

Amazon Reviews의 다중 문장 Data 사용

•

Fine-Tuned BERT Classifier로 Sentiment Transfer Accuracy 측정

•

SacreBLEU로 self-BLEU (Content Preservation) 측정

•

통합 성능으로 G-Score 사용

•

Noise(Drop+Replace)+Noisy Back Translation으로 학습한 Baseline

주요 실험 결과를 정리하면,

•

Sentiment Accuracy와 Content Preservation은 Trade-Off 관계

•

TextSETTR는 기존의 Few-Shot 기법들보다 좋은 성능을 보이며, Labeled Data로 학습한 기법들에 준함

•

표에서 N+NBT가 N+BT에 비해 좋은 성능을 보이지만, 주석에 따르면 Tunable Inference를 통해 N+BT의 성능을 N+NBT 이상으로 향상시킬 수 있음

•

Inference에서 더 많은 문장들을 Sampling하여도 Gain이 크지 않음

•

Small Dataset으로도 잘 동작함