210826 Diary Controlled Text Generation
์ผ๋ง ์ ์ GPT๋ฅผ ํ์ฉํ Text Generation์์ ๋ชจ๋ธ์ Parameter Update์์ด Political Bias๋ฅผ ์กฐ์ ํ๋ ๋ด์ฉ์ ํฅ๋ฏธ๋ก์ฐ๋ฉด์๋ ์ ์ฉํ, ๊ทธ๋ ์ง๋ง ๊ฐ๊น์ด ๋ฏธ๋์๋ ์ฌ์ฉํ ์ผ ์์ ๋ฏํ ๋
ผ๋ฌธ(AAAI 2021)์ ์ฝ์ ์ ์ด ์๋ค. ๊ธฐ๋กํ์ง ์์ผ๋ฉด ์์ ๊ฒ ๊ฐ์ ๋ด์ฉ๋ง ๊ฐ๋ตํ ์ ์ด๋ณธ๋ค..
GPT์ ๊ฐ์ ๊ฑฐ๋ํ ์ธ์ด ๋ชจ๋ธ๋ค์ Pre-Training ์ค์ ์ ์น์ ์ผ๋ก ํธํฅ๋๋๋ก (Politically Biased) ํ์ต๋์์ ์ ์๋ค. ์ ์น์ ํธํฅ์ด๋ ๊ฐ๋ น "๋จ์๋ ~์ ๋น์ ์ง์งํ๋ค" ํน์ "..์ง์ญ ์ฌ๋๋ค์ ~์ฑํฅ์ด๋ค" ๋ฑ ์ถ์ ์ด๋ ๋ฐฐ๊ฒฝ ๋ฑ์ผ๋ก๋ถํฐ ํน์ ์ ์น ์ฑํฅ์ ๋๋ Text๋ฅผ ์์ฑํ๋(์ธ์ด ๋ชจ๋ธ ๊ด์ ์์) ๊ฒ์ ์ผ์ปซ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ๊ฐํ ํ์ต์ ํตํด GPT-2์ Political Bias๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
๋
ผ๋ฌธ์ Political Bias๋ฅผ ์ผ๊ธฐํ๋ Attribute(์์ฑ)๋ก Gender, Location, Topic 3๊ฐ์ง๋ฅผ ์ ์ํ๋ค. ๋ํ, Bias์ ์ข
๋ฅ๋ฅผ ๋ค์๊ณผ ๊ฐ์ 2๊ฐ์ง๋ก ์ ์ํ๋ค.
โข
Indirect Bias: ์์ ์ ์ํ ์์ฑ์ Keyword(e.g. ๊น์ฒ ์: Gender-Male)๊ฐ ํฌํจ๋ Prompts๋ก๋ถํฐ ์์ฑ๋๋ Text์ Bias
โข
Direct Bias: Keyword+์ง์ ์ ์ธ Trigger(์ง๋ณด, ๋ณด์)๋ฅผ ํฌํจํ๋ Prompts๋ก๋ถํฐ ์์ฑ๋๋ Text์ Bias
Indirect Bias๋ ์์ ๊ฐ์ด ์ ์๋๋ค. Option์ ์์ฑ์ด ๊ฐ์ง ์ ์๋ ์ผ์ข
์ Categorical Value์ด๋ค. (e.g. Gender: Male or Female). ํด์ํ๋ฉด "๋จ์" Keyword๋ฅผ ํฌํจํ๋ ๋ชจ๋ Prompts๋ก๋ถํฐ ์์ฑ๋ Texts์ "๋จ์" ํน์ "์ฌ์" Keyword๋ฅผ ํฌํจํ๋ ๋ชจ๋ Prompts์์ ์์ฑ๋ Texts๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ Bias์ ๊ฐ์ผ๋ก ์ ์ํ๋ค๋ ๊ฒ์ด๋ค. ๋ง์ฝ, ๋จ์๋ ์ฌ์๋ ๋์ผํ Text๊ฐ ์์ฑ๋๋ค๋ฉด ๋ชจ๋ธ์ ์ ์น์ ์ผ๋ก ํธํฅ๋์ง ์์๋ค๊ณ ์๊ฐํ ์ ์๋ค.
Direct Bias๋ ์์ ๊ฐ์ด ์ ์๋๋ค. (L: Liberal, C: Conservative). Indirect Bias์ Prompts์ ์ง๋ณด ํน์ ๋ณด์์ ์ธ Trigger๊ฐ ์ถ๊ฐ๋์์ ๋ ์์ฑ๋๋ Texts๊ฐ์ Bias ์ฐจ์ด์ด๋ค. ๊ฐ์ธ์ ์ผ๋ก ์ ๋๊ฐ์ ์์ด ๊ฒ์ ์ฃผ๋ชฉํ๋๋ฐ, ์ด๋ ์ง๋ณด ํน์ ๋ณด์์ ์ธ Bias๊ฐ ๋ฌด์กฐ๊ฑด ์์์ง๋ ๊ฒ์ ์งํฅํ๋ ๊ฒ์ด ์๋๋ผ, ๋ ๊ฐ์ด ๋น์ทํด์ง๋๋ก, ์ฆ ๋ ๋ฐฉํฅ์ผ๋ก ๋น์ทํ๊ฒ ์น์ฐ์น๊ธฐ๋ฅผ ์ํ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค.
๋ณธ ๋
ผ๋ฌธ์ GPT-2์ ๋ชจ๋ธ์ Updateํ๋ ๋์ , Text Generation(Inference)์์ Softmax๊ฐ์ ๊ฑด๋๋ฆฌ๋ ๋ฐฉ์์ผ๋ก Debiasing์ ์ํํ๋ค! ๊ฐํ ํ์ต์ ํตํด ์ ์น์ ์ผ๋ก ํธํฅ๋ ๋จ์ด์ ์์ฑ ํ๋ฅ ์ ์กฐ์ ํ๋๋ฐ, Word Embedding ํน์ (Trained) Classifier๋ฅผ ํ์ฉํ์ฌ Reward๋ฅผ ์ ์ํ๋ค.
โข
Word Embedding Debias Gain
์ฌ์ ์ ์ ์ํ ์ง๋ณด ํน์ ๋ณด์์ ์ธ ์ฑํฅ์ ๋จ์ด๋ค๊ณผ ๊ฑฐ๋ฆฌ๊ฐ ๋จผ+์์ธก์ผ๋ก๋ถํฐ ๋น์ทํ๊ฒ ๋จ์ด์ ธ์๋ ๋จ์ด๋ค์ Gain์ ํฌ๊ฒ ๋ถ์ฌํ๋ค.
โข
Classifier Debias Gain
Political Bias๊ฐ Word Level๋ก ์กด์ฌํ์ง ์๋๋ค๋ฉด Word Embedding์ ํตํ Debiasing์ ํฐ ์๋ฏธ๊ฐ ์์ ์ ์๋ค. ๋ณธ ๋
ผ๋ฌธ์ Generation ๊ฐ Step๋ง๋ค ์ฌ์ ์ ํ์ต๋ Classifier(์ง๋ณด ํน์ ๋ณด์)๋ก Gain์ ๊ณ์ฐ(+Accumulate)ํ๋ค. (8)์์ Cross-Entropy์ ๋น์ทํ๋ฐ Pr(y=1)=Pr(y=0)=0.5๊ฐ ๋๋๋ก ํ์ตํ๋ค.
๋นจ๊ฐ์์ผ๋ก ํ์ํ KL Divergence๋ ๊ธฐ์กด์ ๋ถํฌ(Vanilla GPT-2 Distribution)์ ๋๋ฌด ๋ฉ์ด์ง์ง ์๋๋ก ํ๋ Penalty์ด๋ค.
์คํ ๊ฒฐ๊ณผ, ํฐ ํญ์ Debiasing ํจ๊ณผ๋ฅผ ํ์ธํ ์ ์์์ผ๋ฉฐ, Perplexity ์ธก๋ฉด์์๋ ๋ง์ Trade-Off๊ฐ ์๋ค๊ณ ๋ ๋ณด์ฌ์ง์ง ์๋๋ค. ๋ฌผ๋ก , Debiasing์ด ๋ค์ด๊ฐ๋ ์๊ฐ PPL์ด 2๋ฐฐ ์ ๋ ์ฆ๊ฐํ์ง๋ง ๊ทธ ์ด์์ผ๋ก๋ ํฌ๊ฒ ์ฆ๊ฐํ์ง ์๋๋ค.