Head Selection on Transformer using Variational Inference
(Meta, 2021) Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling
Transformer Layer์ Key Component๋ฅผ ๊ณ ๋ฅด์๋ฉด ์ญ์ Multi-Head Attention์ด ์๋๊น ์ถ๋ค. ๋ฐ์ดํฐ ๊ฐ์ ์๊ด์ฑ์ ๋ค์ํ ๊ด์ ์์ ๊ณ์ฐํ์ฌ ๋ณต์กํ Data Patterns์ ํฌ์ฐฉํ๋ค.
(๋ณ๊ฐ์ ์ด์ผ๊ธฐ๋ก) NLP์์ Multi-Domain (์ดํ Domain์ด๋ผ ์์ฑํ์ง๋ง Lingual์ ์๋ฏธ๋ ๋ดํฌํจ) Training์ด ๋น๋ฒํ๊ฒ ์ฌ์ฉ๋๋๋ฐ, Domain ๊ฐ์ ์ ์ฌ์ฑ์ด ๋ฎ์ ๊ฒฝ์ฐ, ๊ฐ๋ณ Domain์์์ ์ฑ๋ฅ์ด ์ ํ๋๋ Negative Interference๊ฐ ๋ฐ์ํ๋ค.
Negative Interference์ ํ ์์ธ์ผ๋ก Domain ๊ฐ Shared Parameters์์ ๋ฐ์ํ๋ Gradients Conflict๋ฅผ ์๊ฐํ ์ ์๋๋ฐ, ๋ณธ ๋
ผ๋ฌธ์์๋ Domain๋ณ๋ก ์๋ก ๋ค๋ฅธ Heads๋ฅผ ์ ํํ๋ Head Selection ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ฉฐ ํด๋น ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
(Domain Experts์ ๊ฐ์ ๋๋์ผ๋ก LM์ Modularํ๊ฒ ํ์ฉ)
์ด ๋, Domain ๋ณ๋ก ์ด๋ค Heads๋ฅผ ์ ํํ ๊ฒ์ธ์ง๋ฅผ ํ์ตํ๊ธฐ ์ํด Variational Inference๋ฅผ ์ฌ์ฉํ๋ค.
(VAE์์์ ๊ทธ ์น๊ตฌ๊ฐ ๋ง์!)
Input Sequence๋ก๋ถํฐ ํด๋น (n)์ฐจ์์ด n๋ฒ์งธ Head๋ฅผ ์ ํํ๋์ง๋ฅผ ํํํ๋, Bernoulli ๋ถํฌ์ Discrete Latent Variable, z๋ฅผ ๋ชจ๋ธ๋งํ ๋ ๊ฐ Head๊ฐ ์ ํ๋ ํ๋ฅ ์ด ๊ฐ์์ ๊ฐ์ ํ์ฌ Inference Network๋ฅผ ํ์ตํ๋ค.
๋ํ, ๋ชจ๋ธ์ด End-To-End ๋ฏธ๋ถ ๊ฐ๋ฅํ๋๋ก Gumbel-Softmax๋ฅผ ์ฐจ์ฉํ๋ค.
(Tabular Data์ ๊ด์ฌ ์์ ์ ๋ถํฐ ๋ฆฌ๋ทฐํ๋ ค ํ์์ผ๋, ์ฌํ๊น์ง ํ์ง ์์ Gumbel-Softmax.. ์ฌํด์๋ ๊ณต๋ถํ ์์ !)
Selection ๊ณผ์ ์์๋ ์ ํ ํ๋ฅ ์ด ๋์ Top-H๊ฐ์ Heads๋ฅผ ์ ํํ๊ฒ ๋๋ค.
Heads์ ์์๋ฅผ ๊ณ ๋ คํ์ง ์๋ Subset Strategy, ๊ณ ๋ คํ์ฌ ์ ํํ๋ Group Strategy๊ฐ ์กด์ฌํ๋ค. (์ ๊ทธ๋ฆผ ์ฐธ์กฐ)
FAIR์ Multi-Lingual ํน์ Multi-Domain ์คํ์ ๊ฐ์ธ์ ์ผ๋ก ๋๋ฌด ์์ํ์ฌ ๋ถ์์ด ์ด๋ ค์..
์ ๋ฐ์ ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ผ๋ก ์๊ฐ๋์ด ์์ธํ ๋ด์ฉ์ ์๋ต!
์ด ๋
ผ๋ฌธ์ ๋ฆฌ๋ทฐํ ์ด์ ๋ Variational Inference (VAE)๋ฅผ ์ฒ์ ์ ํ์ ๋ ๋งค์ฐ ํฅ๋ฏธ๋กญ๊ฒ ๊ณต๋ถํ๋ ๊ธฐ์ต์ด ์๊ณ , ๋ค๋ฃจ๊ธฐ ์ฌ์ด ๋ถํฌ์ Latent๋ฅผ ํ์ฉํ์ฌ Output์ ์กฐ์ ํ๋ ์ ์ด ํ์ฌ ์
๋ฌด (Controlled Generation)์ ์๊ฐ์ ์ฃผ์ง ์์๊น ํด์์ด๋ค.
์์๋๋ก ํฅ๋ฏธ๋ก์ ๊ณ , ๋น๋ถ๊ฐ ๋น์ทํ ์ฐ๊ตฌ๋ค์ ์ฐพ์ ๊ณต๋ถํ ์์ ์ด๋ค.