🧁

(210826) Review: Mitigating Political Bias in Language Models Through Reinforced Calibration

210826 Diary Controlled Text Generation

얼마 전에 GPT를 활용한 Text Generation시에 모델의 Parameter Update없이 Political Bias를 조정하는 내용의 흥미로우면서도 유용한, 그렇지만 가까운 미래에는 사용할 일 없을 듯한 논문(AAAI 2021)을 읽은 적이 있다. 기록하지 않으면 잊을 것 같아 내용만 간략히 적어본다..

GPT와 같은 거대한 언어 모델들은 Pre-Training 중에 정치적으로 편향되도록 (Politically Biased) 학습되었을 수 있다. 정치적 편향이란 가령 "남자는 ~정당을 지지한다" 혹은 "..지역 사람들은 ~성향이다" 등 출신이나 배경 등으로부터 특정 정치 성향을 띄는 Text를 생성하는(언어 모델 관점에서) 것을 일컫는다. 본 논문에서는 강화 학습을 통해 GPT-2의 Political Bias를 조정하는 방법을 제안한다.

논문은 Political Bias를 야기하는 Attribute(속성)로 Gender, Location, Topic 3가지를 제시한다. 또한, Bias의 종류를 다음과 같은 2가지로 정의한다.

•

Indirect Bias: 앞서 정의한 속성의 Keyword(e.g. 김철수: Gender-Male)가 포함된 Prompts로부터 생성되는 Text의 Bias

•

Direct Bias: Keyword+직접적인 Trigger(진보, 보수)를 포함하는 Prompts로부터 생성되는 Text의 Bias

Indirect Bias는 위와 같이 정의된다. Option은 속성이 가질 수 있는 일종의 Categorical Value이다. (e.g. Gender: Male or Female). 해석하면 "남자" Keyword를 포함하는 모든 Prompts로부터 생성된 Texts와 "남자" 혹은 "여자" Keyword를 포함하는 모든 Prompts에서 생성된 Texts간의 거리를 Bias의 값으로 정의한다는 것이다. 만약, 남자든 여자든 동일한 Text가 생성된다면 모델은 정치적으로 편향되지 않았다고 생각할 수 있다.

Direct Bias는 위와 같이 정의된다. (L: Liberal, C: Conservative). Indirect Bias의 Prompts에 진보 혹은 보수적인 Trigger가 추가되었을 때 생성되는 Texts간의 Bias 차이이다. 개인적으로 절대값을 씌운 것에 주목했는데, 이는 진보 혹은 보수적인 Bias가 무조건 작아지는 것을 지향하는 것이 아니라, 두 값이 비슷해지도록, 즉 두 방향으로 비슷하게 치우치기를 원하는 것이라고 생각했다.

본 논문은 GPT-2의 모델을 Update하는 대신, Text Generation(Inference)에서 Softmax값을 건드리는 방식으로 Debiasing을 수행한다! 강화 학습을 통해 정치적으로 편향된 단어의 생성 확률을 조정하는데, Word Embedding 혹은 (Trained) Classifier를 활용하여 Reward를 정의한다.

•

Word Embedding Debias Gain

사전에 정의한 진보 혹은 보수적인 성향의 단어들과 거리가 먼+양측으로부터 비슷하게 떨어져있는 단어들의 Gain을 크게 부여한다.

•

Classifier Debias Gain

Political Bias가 Word Level로 존재하지 않는다면 Word Embedding을 통한 Debiasing은 큰 의미가 없을 수 있다. 본 논문은 Generation 각 Step마다 사전에 학습된 Classifier(진보 혹은 보수)로 Gain을 계산(+Accumulate)한다. (8)식은 Cross-Entropy와 비슷한데 Pr(y=1)=Pr(y=0)=0.5가 되도록 학습한다.

빨간색으로 표시한 KL Divergence는 기존의 분포(Vanilla GPT-2 Distribution)와 너무 멀어지지 않도록 하는 Penalty이다.

실험 결과, 큰 폭의 Debiasing 효과를 확인할 수 있었으며, Perplexity 측면에서도 많은 Trade-Off가 있다고는 보여지지 않는다. 물론, Debiasing이 들어가는 순간 PPL이 2배 정도 증가하지만 그 이상으로는 크게 증가하지 않는다.