🧁

(211117) Review: Control Prefixes for Text Generation & Text-to-Text Pre-Training for Data-to-Text Tasks

지난 달, arXiv에 공개된 Imperial College & DeepMind의 Research. Prefix-Tuning의 Upgraded Version 느낌..! 현 시점 Data-To-Text Generation 각종 Benchmarks에서 가장 좋은 성능을 기록 중!

Prefix-Tuning

(211102) Review: Prefix-Tuning: Optimizing Continuous Prompts for Generation

(Imperial College, 2021) Control Prefixes for Text Generation

Abstract

•

GPT-2,3와 같은 Large Scale의 Pre-Trained LM을 Fully Fine-Tuning하기보다, LM은 Freeze하고, 추가적인 Small Parameters만을 학습하는 것이 최신 연구 동향

•

Input Text에 Trainable Propmts를 추가하여 해당 Parameters만을 학습하는 Prompt Learning이 활발히 연구되는 중

•

최근 리뷰한 Prefix-Tuning이 Prompt Learning을 활용하여 Data-To-Text (& Summarization) 성능을 향상시킨 대표적인 Research

•

그러나 Prefix-Tuning은 Task-Specific한 Prefix (Prompt)만을 사용하는데, 본 논문은 이에 단일 Data에 Specific한, Attribute-Level Prefix를 추가로 사용하여 성능을 개선: Finer-Grained Control

•

(저자는 CTRL & PPLM과 같은 Controlled Generation에서 영감을 받았다고 함)

Proposed Model: Control Prefixes

•

Baseline LM은 T5 (for Data-To-Text), BART로 Transformer Enc-Dec 구조

•

(T5가 GPT-2에 비하여 좋은 성능을 보인다고 하며, Data-To-Text Tasks에서 T5가 적합하다는 Google의 Research도 존재함. 해당 Research는 글 마지막에 간략히 소개하겠음)

•

Task-Specific한 (Like Prefix-Tuning) General Prefix, Attribute-Level의 Control Prefixes 그리고 Attribute-Level 정보 혹은 Guidance를 Input Text에 추가

•

Prefix는 Self-Attention의 Key-Value Pairs인데, Enc-Dec 구조로 인하여 3가지 버전 (for Encoder & Cross & Decoder Masked-Attention)이 필요

•

(Prefix-Tuning에서와 같이) 각 Prefix는 Reparameterization을 위해 MLP를 거치는데, 3가지 버전이 존재하므로 MLP도 3개가 필요함. 중요한 점은 2종류의 Prefix가 Shared MLP를 갖는다는 것!

Experiments & Results

실험은 Data-To-Text Part만 확인.

•

WebNLG, DART, E2E 사용

•

원 논문과 다르게 Prefix-Tuning을 T5에 적용

•

WebNLG는 Train & Validation Set에 등장하는 Seen Categories 10개, Test Set에만 등장하는 Unseen Categories 5개로 구성

•

WebNLG Categories (Airport, Food..)가 Attributes로 활용됨

•

Inference에서 Unseen Categories는 Glove Embedding상 가장 유사한 Seen Categories로 Mapping됨

•

실험 결과, 모든 Dataset에서 SOTA의 성능을 보임

•

Prefix-Tuning 논문의 실험을 보면 WebNLG에서 Seen 성능을 일부 포기하는 대신, Unseen (Generalization) 성능을 크게 향상시키는 것을 알 수 있음

•

본 논문은 Attribute-Level Prefix를 추가하여 Prefix-Tuning의 (Unseen 성능은 유지하면서) Seen 성능을 끌어올리는 것으로 이해할 수 있음: Table상 WebNLG 중간 Part

•

DART Data를 추가하는 것은 상대적으로 약한 Unseen 성능을 끌어올려 결과적으로 SOTA의 성능을 이끌어냄

(Google, 2020) Text-to-Text Pre-Training for Data-to-Text Tasks

•

T5 Pre-Training을 통해 BERT, GPT-2 혹은 복잡한 구조의 Models를 능가하는 (Simple End2End) Data-To-Text Generation LM을 구축할 수 있음

•

특히, Out-Of-Domain에서의 Generalization 성능이 좋음

•

단, Unsupervised Objective로만 학습된 버전이 아닌, Supervised Multi-Task 버전의 T5를 활용