🍭

(211002) Diary: Controlled Text Generation Feat. CTRL & PPLM

211002 Diary GPT

얼마 전에 리뷰했던 Codex를 비롯한 Transformer Decoder 기반의 Large LM(s)은 사람이 작성하는 것과 유사한 수준의 Text Generation이 가능하다고 한다. 하지만, LM이 특정 Domain, Style 혹은 Sentiment의 Text를 생성하도록 조절하는 것은 간단한 일이 아니다. 일반적으로 원하는 조건을 LM에 명시적으로 (Special Token 등을 Prompt와 함께) 전달하는 방식을 생각할 수 있지만, LM의 추가적인 학습이 필요하다는 점에서 효율적이지 않다. 최근에는 과거 리뷰했던 논문과 비슷하게 Pre-Trained LM의 추가 Parameter Update 없이 원하는 특성의 Text를 생성하는 연구들이 중점적으로 수행되는 것 같다. 본인은 지금껏 주로 Transformer Encoder 계열의 Denoising Auto-Encoding LM(s)만을 사용했기에, 이번 기회에 Text Generation을 제대로(?) 공부하려 한다. 그런 의미에서 가장 대표적인 2편의 논문을 읽고 간략히 정리해본다..

(Salesforce, 2019) CTRL: A Conditional Transformer Language Model for Controllable Generation

CTRL은 주어진 Domain, Style 그리고 질의응답, 번역 등의 Task에 해당하는 Text를 생성할 수 있도록 학습된 LM이다. CTRL은 Prompt와 함께 전달받는 Control Code(s)로부터 생성할 Text의 특성을 결정한다. 예를 들어, "이 칼은"이라는 Prompt가 있을 때, Horror라는 Code를 함께 전달하면 공포스러운 장면을 묘사한 Text를 생성할 것이고, Code가 Reviews인 경우에는 구매한 칼에 대한 후기와 같은 Text를 생성하게 되는 식이다. Reviews와 함께 Rating: 3.0이라는 추가 Code를 전달할 수 있는데, 이 때에는 점수에 따라 다른 뉘앙스의 Text를 생성한다고 한다. 살펴본 바와 같이 Control Code(s)는 다음과 같은 2종류로 구성되며, 이들을 조합하여 다양한 특성의 Text를 생성할 수 있다.

•

Domain Control Code(s): Prompt의 맨 앞에 Prepend됨. 이후 모든 Sequence는 이로부터 Propagate되기 때문에 특별한 의미의 Token으로 취급된다고 함.

•

Non-Domain Control Code(s): Rating: 3.0과 같은 Code.

CTRL의 Training+Inference에서 주목할 만한 점들은 다음과 같다.

•

140GB의 Data로 학습: 이 중에는 General Corpus(Wikipedia 등), Reddit, QA+Translation Tasks 등이 포함됨.

•

Vocab Size는 250K로 매우 큰 편, 하지만 Sequence Length는 256, 512로 작은 편. Vocab Size가 크기 때문에 Subwords로의 분해가 덜할 것이며, 이를 통해 적은 수의 Token으로도 Long Sequence를 충분히 표현할 수 있음.

•

Inference에서 Temperature-Controlled 혹은 Nucleus Sampling보다 Greedy하지만, 중복 생성한 Token에 Penalty를 주는 Penalized Sampling 활용. (Sampling 기법들을 잘 정리해 준 Blog!)

(Uber, 2019) Plug and Play Language Models: A Simple Approach to Controlled Text Generation

CTRL과 같은 방식은 LM이 Special Token을 이해할 수 있도록 (추가적인)학습을 진행해야 하는 제약을 갖는다. GPT 계열의 Model Size를 생각하면, 이는 상당한 Resource를 필요로 하는 작업이다. PPLM은 Pre-Trained LM의 Parameter는 Update하지 않고, Small Size의 Attribute Model을 활용하여 LM이 생성하는 Text의 특성을 조절한다. PPLM은 Text의 Topic과 Sentiment를 설정할 수 있고, 각각 Bag-of-Words(BoW), Single-Layer Classifier의 Attribute Model을 통해 조절한다. 조금 더 구체적인 Process는 다음과 같다.

Pre-Trained LM의 Forward Pass로 다음 Token(Sequence)을 Inference하고, 이를 Attribute Model을 통해 원하는 특성의 Likelihood, P(a|x)를 Predict한다.

Attribute Model의 Gradient를 활용해 P(a|x)를 증가시키는 방향으로 LM의 Latent Representations를 Update한다.

Update된 Latent로 Inference를 다시 수행한다.

위 내용을 논문으로 읽었을 때, 이해하는 데 별다른 어려움이 없었다. 그러나 이를 Code로 구현한다고 생각하니 막상 감이 잘 오지 않는 것이다.. (이는 Code가 어려워서가 아니라 내가 특히 약하거나 부족한 요소를 포함하고 있기 때문이 아닐까 생각한다!) 공식 GitHub을 보면서 추가 공부를 하였고, 내가 이해한 것들은 다음과 같다.

•

Inference에서 Hugging Face GPT는 현재 Time Step의 Token, x_T와 Cached(이전 Time Step까지 계산)된 Key-Values값, H_T를 입력으로 받아, x_(T+1)과 H_(T+1)을 출력함(엄밀히 말하면 Token이 아닌 Logits을 출력).

•

논문에서 언급하는 LM의 Latent는 H_T를 말함.

•

H_T와 동일한 Shape의, 모든 Param이 0값인 Tensor, Delta(H_T)를 생성함.

•

Delta(H_T)에 Gradient를 붙이고(requires_grad=True), H_T에 더해준 후 Forward Pass.

•

Backward Pass를 통해 Delta(H_T)의 Gradient를 계산하고, Delta(H_T)값을 Update.

•

H_T+Delta(H_T)로 Inference를 다시 수행함.