progress:: 3.5/8
fill:๐ฉ
transition:๐จ
empty:โป๏ธ
prefix:[
suffix:]
length:10Abstract
โ๋จ์ด์ ๋ณต์กํ ํน์ฑ(e.g, ๋ฌธ๋ฒ ์๋ฏธ)์ ์ด๋ค์ด ์ธ์ด์ ๋งฅ๋ฝ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ์ฌ์ฉ๋๋ ์ง(i.e. ๋ค์์ด)๋ฅผ ๋ชจ๋ ๋ชจ๋ธ๋งํ๋ ์๋ก์ด ์ ํ์ ๊น์ ๋ฌธ๋งฅํ๋ ๋จ์ด ํํ์ ์๊ฐํฉ๋๋ค. ์ฐ๋ฆฌ์ ๋จ์ด ๋ฒกํฐ๋ ๋๊ท๋ชจ ๋ง๋ญ์น๋ฅผ ํ์ต์ํจ bidirectional Language Model(์ดํ biLM)์ ๋ด๋ถ ์ํ์ ๋ํด ํ์ต๋ ํจ์์ ๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฌํ ํํ ๋ฐฉ์์ด ๋ค๋ฅธ ๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ ๋์ ๋ ์ ์์ผ๋ฉฐ question answering, textual entailment, sentiment analysis๋ฅผ ํฌํจํ๋ 6๊ฐ์ง ๊น๋ค๋ก์ด NLP ๊ณผ์ ์์ ์ต์ ๊ธฐ์ ๋ค์ ํ์ ํ๊ฒ ๊ฐ์ ํ ์ ์์์ ๋ณด์ ๋๋ค. ๋ํ ์ฐ๋ฆฌ๋ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๋ด๋ถ ๋ ์ด์ด๋ฅผ ๋ ธ์ถ์ํค๋ ๊ฒ์ด ๋ค์ด์คํธ๋ฆผ ๋ชจ๋ธ์ด ๋ค์ํ ์ ํ์ ์ค๊ฐ๋ ์ ํธ๋ฅผ ํผํฉํ ์ ์๋๋ก ํ๋ ๋ฐ ์ค์ํ๋ค๋ ๋ถ์์ ์ ์ํฉ๋๋ค.
1. Introduction
โ์ฌ์ ํ์ต๋ ๋จ์ด ํํ์ ๋ง์ ์์ฐ์ด๋ฅผ ์ดํดํ๋ ๋ชจ๋ธ์์ ํต์ฌ์ ์ธ ์์์ ๋๋ค. ์ด์จ๋ , ๊ณ ํ์ง์ ํํ์ ํ์ตํ๋ ๊ฒ์ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ๊ทธ๋ค์ ์ด์์ ์ผ๋ก ๋จ์ด์ ๋ณต์กํ ํน์ฑ(e.g., ๋ฌธ๋ฒ๊ณผ ์๋ฏธ)๊ณผ ์ด๋ค์ด ์ธ์ด์ ๋งฅ๋ฝ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ์ฌ์ฉ๋๋์ง(i.e., ๋ค์์ด๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒ)๋ฅผ ๋ชจ๋ ๋ชจ๋ธ๋งํ ์ ์์ด์ผ ํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์์, ์ฐ๋ฆฌ๋ ๋ ๋ฌธ์ ๋ฅผ ์ง์ ์ ์ผ๋ก ํด๊ฒฐํ๊ณ , ๊ธฐ์กด ๋ชจ๋ธ์ ์ฝ๊ฒ ํฉ์ณ์ง ์ ์๊ณ , ์ ์๋ ๋ชจ๋ ์ด๋ ค์ด ์ธ์ด ์ดํด ๋ฌธ์ ๋ค์์ ์ต์ ๊ธฐ์ ์ ์๋นํ ๊ฐ์ ์ ์ด๋ฃฌ ์๋ก์ด ํํ์ deepย contextualized word representation์ ์๊ฐํฉ๋๋ค.
โ์ฐ๋ฆฌ์ representation์ ๊ฐ ํ ํฐ์ ์ ์ฒด ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ํ ํจ์ ํํ์ด ํ ๋น๋๋ค๋ ์ ์์ ๊ธฐ์กด ๋จ์ด ์ ํ ์๋ฒ ๋ฉ๊ณผ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ๋๊ท๋ชจ ๋ง๋ญ์น๋ฅผ ๋ชฉ์ ์ผ๋ก ํ์ต๋ ์ง์ง์ด์ง ์ธ์ด ๋ชจ๋ธ๊ณผ ํจ๊ป ํ์ต๋ ์๋ฐฉํฅ LSTM์ผ๋ก ๋ถํฐ ์ป์ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ์์ต๋๋ค. ์ด๋ฌํ ์ด์ ๋ก, ์ฐ๋ฆฌ๋ ๊ทธ๋ค์ ELMo(Embeddings from Language Models) representations๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ๋ฌธ๋งฅํ๋ ๋จ์ด ๋ฒกํฐ๋ฅผ ํ์ต์ํค๋ ์ด์ ์ ๋ฐฉ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ, ELMo representations๋ ์๋ฐฉํฅ LSTM์ ๋ชจ๋ ๋ด๋ถ ๋ ์ด์ด๋ค์ ํจ์๋ผ๋ ์ ์์ ๊น์ต๋๋ค. ๋ ๊ตฌ์ฒด์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ๊ฐ ์ ๋ ฅ ๋จ์ด ์์ ์์ธ ๋ฒกํฐ์ ์ ํ ์กฐํฉ์ ํ์ต์์ผฐ๊ณ , ์ด๋ LSTM์ ์ต์์ ๋ ์ด์ด๋ง์ ์ฌ์ฉํ ๋ ๋ณด๋ค ์ฑ๋ฅ์ ํ์ ํ๊ฒ ๊ฐ์ ์์ผฐ์ต๋๋ค.
ย โ์ด๋ฌํ ๋ฐฉ๋ฒ์ผ๋ก ๋ด๋ถ ์ํ๋ค์ ํฉ์น๋ ๊ฒ์ ๋งค์ฐ ํ๋ถํ ๋จ์ด ํํ์ด ๊ฐ๋ฅํ๋๋ก ํฉ๋๋ค. ๊ณ ์ ํ ํ๊ฐ๋ฅผ ์ฌ์ฉํ์ฌ, ์ฐ๋ฆฌ๋ ์์ LSTM์ ์ํ๊ฐ ๋ฌธ๋งฅ์ ์์กด์ฑ ์ธก๋ฉด์ ํฌ์ฐฉํ๋ ๋ฐ๋ฉด ํ์ LSTM์ ์ํ๋ ๋ฌธ๋ฒ์ ์ธก๋ฉด์ ํฌ์ฐฉํ๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ๋์์ ๋ชจ๋ ์ด๋ฌํ ์ ํธ๋ค์ ๋ ธ์ถ์ํค๋ ๊ฒ์ ํ์ต๋ ๋ชจ๋ธ์ด ๊ฐ ์ต์ข ์์ ์ ๊ฐ์ฅ ์ ์ฉํ ์ค๊ฐ๋ ์ ํ์ ์ ํํ ์ ์์ผ๋ฏ๋ก ๋งค์ฐ ์ ์ตํฉ๋๋ค.
ย โ๊ด๋ฒ์ํ ์คํ๋ค์ ํตํด ELMo representation์ด ์ค์ ๋ก ๋งค์ฐ ์ ์๋ํ๋ค๋ ์ฌ์ค์ด ์ ์ฆ๋์์ต๋๋ค. ์ฐ๋ฆฌ๋ ๋จผ์ ๊ทธ๋ค์ด question answering, textual entailment, sentiment analysis๋ฅผ ํฌํจํ๋ 6๊ฐ์ ๋ค์ํ๊ณ ์ด๋ ค์ด ์ธ์ด ์ดํด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ธฐ์กด์ ๋ชจ๋ธ์ ์ฝ๊ฒ ์ถ๊ฐ๋ ์ ์์์ ๋ณด์ ๋๋ค. ELMo representation์ ์ถ๊ฐํ๋ ๊ฒ ๋ง์ผ๋ก๋ ๋ชจ๋ ์ผ์ด์ค์์ ์ต์ ๊ธฐ์ ๋ค์ ์๋นํ ๊ฐ์ ์์ผฐ์ผ๋ฉฐ ์๋ ์ค๋ฅ๋ฅผ 20% ์ด์ ๊ฐ์์์ผฐ์ต๋๋ค. ์ง์ ์ ์ธ ๋น๊ต๊ฐ ๊ฐ๋ฅํ ๊ณผ์ ์์, ELMo๋ ์ ๊ฒฝ๋ง ๊ธฐ๊ณ ๋ฒ์ญ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํด ๊ณ์ฐํ๋ ๋ฌธ๋งฅํ๋ representation์ธ CoVe๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก ELMo์ CoVe์ ๋ํ ๋ถ์์ deep representation์ด LSTM์ ์ต์์ ๋ ์ด์ด๋ก ๋ถํฐ ์ป์ representation ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๊ฐ์ง๋ค๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ์ฐ๋ฆฌ์ ํ์ต๋ ๋ชจ๋ธ๊ณผ ์ฝ๋๋ ๊ณต๊ฐ๋์์ผ๋ฉฐ, ์ฐ๋ฆฌ๋ ELMo๊ฐ ๋ง์ ๋ค๋ฅธ NLP ๋ฌธ์ ๋ค์ ๋ํด ์ ์ฌํ ์ด์ ์ ์ ๊ณตํ ๊ฒ์ด๋ผ๊ณ ์์ํฉ๋๋ค.
2. Related work
โ๋ผ๋ฒจ๋ง ๋์ง ์์ ๋๊ท๋ชจ ํ ์คํธ์์ ๋ฌธ๋ฒ์ , ์๋ฏธ์ ์ ๋ณด๋ฅผ ์ถ์ถํด๋ด๋ ๋ฅ๋ ฅ ๋๋ถ์, ์ฌ์ ํ์ต๋ ๋จ์ด ๋ฒกํฐ๋ question answering, textual entailment, semantic role labeling ๋ฑ์ ํฌํจํ๋ ๋๋ถ๋ถ์ ์ต์ NLP ์ํคํ ์ฒ์์ ์ผ๋ฐ์ ์ธ ๊ตฌ์ฑ ์์๊ฐ ๋์์ต๋๋ค. ์ด์จ๋ , ๋จ์ด ๋ฒกํฐ ํ์ต์ ์ํ ์ด๋ฌํ ์ ๊ทผ๋ค์ ๊ฐ ๋จ์ด๋ง๋ค ๋ฌธ๋งฅ์ ๋น์์กด์ ์ธ ํ๋์ representation๋ง์ ์ฌ์ฉํฉ๋๋ค.
โ์ด์ ์ ์ ์๋ ๋ฐฉ๋ฒ๋ค์ ํ์ ๋จ์ด ์ ๋ณด๋ฅผ ํ๋ถํ๊ฒ ํ๊ฑฐ๋ ๊ฐ ๋จ์ด์ ์๋ฏธ์ ๋ํด ๋ณ๋์ ๋ฒกํฐ๋ฅผ ํ์ตํ์ฌ ๊ธฐ์กด ๋จ์ด ๋ฒกํฐ๊ฐ ๊ฐ์ง๋ ๋ช๋ช ๋ฌธ์ ๋ค์ ๊ทน๋ณตํ์์ต๋๋ค. ์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ๋ฒ์ ๋ฌธ์ ์ปจ๋ณผ๋ฃจ์ ์ ํตํด ๋ถ๋ถ ๋ฌธ์์ ๋ํ ์ด์ ์ ๊ฐ์ง๊ณ , ์ฌ์ ์ ์๋ ์๋ฏธ๋ฅผ ์์ธกํ๊ธฐ ์ํด ๋ช ์์ ์ธ ํ๋ จ ์์ด ๋ค์์ด ์ ๋ณด๋ฅผ ์ํํ๊ฒ ๋ค์ด์คํธ๋ฆผ์ผ๋ก ํตํฉํฉ๋๋ค.
โ๋ํ ๋ค๋ฅธ ์ต๊ทผ์ ์ฐ๊ตฌ๋ ๊ตฌ๋ฌธ์ ์์กด์ ์ธ representation์ ํ์ต์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. context2vec์ ๋์ ์ฃผ์์ ๋ฌธ๋งฅ์ ์ธ์ฝ๋ฉํ๊ธฐ ์ํด ์๋ฐฉํฅ LSTM์ ์ฌ์ฉํฉ๋๋ค. contextual embedding์ ํ์ต์ํค๊ธฐ ์ํ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ๋ฒ๋ค์ representation์ pivot word ์์ฒด๋ฅผ ํฌํจํ๊ณ ์ง๋ ํ์ต ์ ๊ฒฝ๋ง ๊ธฐ๊ณ ๋ฒ์ญ(CoVe) ๋๋ ๋น์ง๋ ํ์ต ์ธ์ด ๋ชจ๋ธ์ ์ธ์ฝ๋๋ก ๊ณ์ฐ๋ฉ๋๋ค. ๊ธฐ๊ณ ๋ฒ์ญ ๋ฐฉ์์ด ๋ณ๋ ฌ ๋ง๋ญ์น์ ํฌ๊ธฐ์ ์ ํ์ ๋ฐ์ง๋ง ์ด๋ฌํ ๋ฐฉ์๋ค์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ์ด์ ์ ๊ฐ์ง๋๋ค. ์ด ๋ ผ๋ฌธ์์, ์ฐ๋ฆฌ๋ ํ๋ถํ ๋จ์ผ ์ธ์ด ๋ฐ์ดํฐ์ ์ ๊ทผํจ์ผ๋ก์จ ์ป๋ ์ต๋ํ์ ์ด์ ์ ์ป๊ณ , ์ฝ 3์ฒ๋ง ๊ฐ์ ๋ฌธ์ฅ์ด ํฌํจ๋ ๋ง๋ญ์น๋ก biLM์ ํ์ต์ํต๋๋ค. ๋ํ ์ฐ๋ฆฌ๋ deep contextual representation์ ๋ํ ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ๋ฒ๋ค์ ๋์ ๋ฒ์์ ๋ค์ํ NLP ๊ณผ์ ์ ๋ํด ์ ์๋ํ๋ ๊ฒ์ ๋ณด์ฌ ์ผ๋ฐํ ์์ผฐ์ต๋๋ค.
โ์ด์ ์ ์ฐ๊ตฌ๋ค์ ์๋ฐฉํฅ RNN์ ๋ ์ด์ด๋ค์ด ๋ค๋ฅธ ์ข ๋ฅ์ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, deep LSTM์ ํ์ ๋ ์ด์ด์ multi-task ๊ตฌ๋ฌธ ๊ฐ๋ (e.g., ํ์ฌ ํ๊น )์ ๋์ ํ๋ ๊ฒ์ ์ข ์์ฑ ๊ตฌ๋ฌธ ๋ถ์์ด๋ CCG super tagging๊ณผ ๊ฐ์ ๋์ ๋ ๋ฒจ์ task์์ ์ ์ฒด์ ์ธ ์ฑ๋ฅ์ ๊ฐ์ ์ํฌ ์ ์์ต๋๋ค. RNN ๊ธฐ๋ฐ ์ธ์ฝ๋-๋์ฝ๋ ๊ธฐ๊ณ ๋ฒ์ญ ์์คํ ์์, Belinkov et al. (2017)์ 2-layer LSTM ์ธ์ฝ๋์ ์ฒซ ๋ฒ์งธ ๋ ์ด์ด์์ ํ์ต๋ representation์ด ๋ ๋ฒ์งธ ๋ ์ด์ด์ ๋นํด ํ์ฌ ํ๊ทธ๋ฅผ ์์ธกํ๋ ๋ฐ์ ๋ ๋ซ๋ค๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๋จ์ด ๋ฌธ๋งฅ ์ธ์ฝ๋ฉ์ ์ํ LSTM์ ์ต์์ ๋ ์ด์ด๋ ๋จ์ด์ ์๋ฏธ์ ๋ํ representation์ ํ์ตํ๋ ๊ฒ์ด ์ฆ๋ช ๋์์ต๋๋ค. ์ฐ๋ฆฌ๋ ELMo representations์ ์์ ๋ ์ธ์ด ๋ชจ๋ธ ๋ชฉ์ ์ ์ํด ์ ์ฌํ ์ ํธ๋ค์ด ์ ๋๋จ์ ๋ณด์๊ณ , ์ด๋ ๋ค์ํ ์ ํ์ ์ค๊ฐ๋ ์ ํผํฉํ๋ ๋ค์ด์คํธ๋ฆผ ์์ ์ ํ ๋ชจ๋ธ๋ค์ ํ์ตํ๋ ๊ฒ์ ๋งค์ฐ ์ ์ตํ ์ ์์ต๋๋ค.
โDai and Le (2015)์ Ramachandran et al. (2017)์ ์ธ์ฝ๋-๋์ฝ๋ ์์ ์ธ์ด ๋ชจ๋ธ๊ณผ sequence autoencoder๋ฅผ ์ฌ์ฉํด ์ฌ์ ์ ํ์ต์์ผฐ๊ณ task๋ณ ์ง๋๋ฅผ ํตํด fine tuningํ์๋ค. ์ด์ ๋ฐ๋๋ก, ์ฐ๋ฆฌ๋ biLM์ ๋ผ๋ฒจ๋ง๋์ง ์์ ๋ฐ์ดํฐ๋ก ํ์ต์ํจ ๋ค ๊ฐ์ค์น๋ฅผ ์์ ํ๊ณ task์ ๋ฐ๋ผ ๋ชจ๋ธ ์ฉ๋์ ์ถ๊ฐํ์ฌ ๋ค์ด์คํธ๋ฆผ ํ๋ จ ๋ฐ์ดํฐ๊ฐ ๋ ์์ ์ง๋ ํ์ต ๋ชจ๋ธ์ ์ง์ํ๋ ๊ฒฝ์ฐ ํฌ๊ณ ํ๋ถํ๊ณ ๋ณดํธ์ ์ธ biLM representation์ ํ์ฉํ ์ ์์์ต๋๋ค.
3. ELMo: Embeddings from Language Models
โ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋จ์ด ์๋ฒ ๋ฉ๋ค๊ณผ ๋ฌ๋ฆฌ, ELMo word representation์ ์ด ์น์ ์ ์ค๋ช ๋ ๋๋ก ์ ์ฒด ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ํ ํจ์์ ๋๋ค . ๊ทธ๋ค์ ๋ฌธ์ ์ปจ๋ณผ๋ฃจ์ ์ ํตํด (Sec. 3.1), ๋ด๋ถ ๋คํธ์ํฌ ์ํ์ ๋ํ ์ ํ ํจ์๋ก์จ 2-layer biLM์ ์ต์์ layer์์ ๊ณ์ฐ๋ฉ๋๋ค (Sec. 3.2). ์ด ์ค์ ์ ํตํด ์ฐ๋ฆฌ๋ biLM์ด ํฐ ๊ท๋ชจ์์ ์ฌ์ ์ ํ์ต๋์ด ์์ ๋ (Sec. 3.4) ์ค์ง๋ ํ์ต์ ์ฌ์ฉํ ์ ์๊ณ , ๋์ ๋ฒ์์ ๊ธฐ์กด์ neural NLP ์ํคํ ์ฒ์ ํตํฉ์ํฌ ์ ์์ต๋๋ค (Sec. 3.3).
3.1 Bidirectional langualge models
โ N๊ฐ์ token ์ด ์ฃผ์ด์ง๋ฉด, ์ ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ์ ์ด ์ฃผ์ด์ก์ ๋ ์ ํ๋ฅ ์ ๋ชจ๋ธ๋งํ์ฌ ์ํ์ค์ ํ๋ฅ ์ ๊ณ์ฐํฉ๋๋ค.
์ต๊ทผ์ ์ต์ ์ ๊ฒฝ๋ง ์ธ์ด ๋ชจ๋ธ์ ํ ํฐ ์๋ฒ ๋ฉ ๋๋ ๋ฌธ์ CNN์ ๋ํ ํตํด ๋ฌธ๋งฅ์ ๋น์์กด์ ์ธ token representation ์ ๊ณ์ฐํ๊ณ ์ ๋ฐฉํฅ LSTM์ ๊ฐ์ layer๋ฅผ ํตํด ์ ๋ฌํฉ๋๋ค. ๊ฐ ์์น ์์, ๊ฐ๊ฐ์ LSTM layer๋ ์์ ๋ฌธ๋งฅ์ ์์กด์ ์ธ representation ์ ์ถ๋ ฅํฉ๋๋ค. LSTM์ ์ต์์ ๋ ์ด์ด์ ์ถ๋ ฅ์ Softmax layer๋ฅผ ํตํด ๋ค์ token ์ ์์ธกํ๊ธฐ ์ํด ์ฌ์ฉ๋ฉ๋๋ค.
โ์ญ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ์ ์ดํ์ ๋ฌธ๋งฅ์ด ์ฃผ์ด์ง ๋ ์ด์ ์ token์ ์์ธกํ๊ธฐ ์ํด ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ๋ฌธ์ฅ์ ๋ฐ์๋ค์ด๋ ๊ฒ์ ์ ์ธํ๋ฉด ์ ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ ์ฌํฉ๋๋ค.
์ด ์ฃผ์ด์ง ๋ ์ representation ๋ฅผ ๋ง๋ค์ด๋ด๋ layer backward LSTM์ ๋ ์ด์ด ์์ ์ ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ ์ฌํ๊ฒ ๊ตฌํ๋ ์ ์์ต๋๋ค.
โbiLM์ ์ ๋ฐฉํฅ๊ณผ ์ญ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ์ ๊ฒฐํฉํฉ๋๋ค. ์ฐ๋ฆฌ์ ๊ณต์์ ์ ๋ฐฉํฅ๊ณผ ์ญ๋ฐฉํฅ์ log likelihood๋ฅผ ๋ชจ๋ ์ต๋ํํฉ๋๋ค.
์ฐ๋ฆฌ๋ ๊ฐ ๋ฐฉํฅ์ LSTM์ด ๊ฐ์ง๋ parameter๋ฅผ ์ ์งํ๋ฉด์ token representation()๊ณผ Softmax layer()์ ํ์ํ parameter๋ฅผ ์ ๋ฐฉํฅ๊ณผ ์ญ๋ฐฉํฅ์ ์ฐ๊ฒฐํ์์ต๋๋ค. ์์ ํ ๋ ๋ฆฝ๋ parameter๋ฅผ ์ฌ์ฉํ๋ ๋์ ์ ์ผ๋ถ ๊ฐ์ค์น๋ฅผ ๊ณต์ ํ ๋ค๋ ์ ์ ์ ์ธํ๋ฉด ์ ์ฒด์ ์ผ๋ก ์ด ๊ณต์์ Peters et al. (2017)์ ์ ๊ทผ ๋ฐฉ๋ฒ๊ณผ ์ ์ฌํฉ๋๋ค. ๋ค์ ์น์ ์์, biLM์ ์ ํ ์กฐํฉ์ธ word representation์ ํ์ตํ๊ธฐ ์ํ ์๋ก์ด ๋ฐฉ๋ฒ์ ๋์ ํ๋ฉฐ ์ด์ ์ ์ฐ๊ตฌ๋ค๋ก ๋ถํฐ ์์ํฉ๋๋ค.
3.2 ELMo
โELMo๋ task์ ํน์ด์ ์ธ biLM์ intermediate layer representation์ ์กฐํฉ์ ๋๋ค. ๊ฐ๊ฐ์ token ์ ๋ํ์ฌ, -layer biLM์ ๊ฐ์ representation์ ๊ณ์ฐํฉ๋๋ค.
์ด๋ ์ token layer์ด๊ณ ๊ฐ ์๋ฐฉํฅ LSTM์์ ์ ๋๋ค.
โ๋ค์ด์คํธ๋ฆผ ๋ชจ๋ธ์ ๋์ ํ๊ธฐ ์ํด, ELMo๋ ์ ๋ชจ๋ ๋ ์ด์ด๋ฅผ ๋จ์ผ ๋ฒกํฐ๋ก ํตํฉํฉ๋๋ค . ๊ฐ์ฅ ๋จ์ํ ๊ฒฝ์ฐ, ELMo๋ TagLM (Peters et al., 2017) ๊ทธ๋ฆฌ๊ณ CoVe (Mc-Cann et al., 2017) ์ ๊ฐ์ด ์ต์์ ๋ ์ด์ด๋ฅผ ์ ํํฉ๋๋ค . ๋ณด๋ค ์ผ๋ฐ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ task์ ํน์ด์ ์ธ ๋ชจ๋ biLM ๋ ์ด์ด์ ๊ฐ์ค์น๋ฅผ ๊ณ์ฐํ์์ต๋๋ค.
(1)์์, ๋ Softmax์ ์ํด ์ ๊ทํ๋ ๊ฐ์ค์น์ด๊ณ scalar parameter ๋ task model์ด ELMo vector ์ ์ฒด๋ฅผ ์์ ํ ์ ์๋๋ก ํ๋ค. ๋ ์ต์ ํ ๊ณผ์ ์์ ์ค์ง์ ์ผ๋ก ์ค์ํฉ๋๋ค (์์ธํ ๋ด์ฉ์ ๋ณด์ถฉ ์๋ฃ ์ฐธ์กฐ). ๊ฐ๊ฐ์ biLM ๋ ์ด์ด์ ํ์ฑํ ํจ์๊ฐ ์๋ก ๋ค๋ฅธ ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ์์์ ๊ณ ๋ คํ ๋, ์ผ๋ถ ๊ฒฝ์ฐ์์ ์ด๋ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๊ธฐ ์ ์ ๊ฐ biLM ๋ ์ด์ด์ layer normalization์ ์ถ๊ฐํ๋ ๋ฐ์ ๋์์ ์ฃผ์์ต๋๋ค (Ba et al., 2016).
3.3 Using biLMs for supervised NLP tasks
โ์ฌ์ ํ์ต๋ biLM๊ณผ target NLP task๋ฅผ ์ํ ์ง๋ ํ์ต ์ํคํ ์ฒ๊ฐ ์ฃผ์ด์ก์ ๋, task model์ ๊ฐ์ ํ๊ธฐ ์ํด biLM์ ์ฌ์ฉํ๋ ๊ฒ์ ๊ฐ๋จํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๊ฐ๋จํ๊ฒ biLM์ ์๋์ํค๊ณ , ๊ฐ ๋จ์ด์ ๋ํ ๋ชจ๋ ๋ ์ด์ด์ representation์ ๊ธฐ๋กํ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์, ์ฐ๋ฆฌ๋ ํ์ ๋์ด ์๋ฏ์ด ๋ง์ง๋ง task model์ด ์ด๋ฌํ representation์ ์ ํ ์กฐํฉ์ ํ์ตํ๋๋ก ํ์์ต๋๋ค.
โ์ฐ์ biLM ์์ด ์ง๋ ํ์ต๋ ๋ชจ๋ธ์ ์ตํ์ ๋ ์ด์ด๋ฅผ ๊ณ ๋ คํฉ๋๋ค. ๋๋ถ๋ถ์ ์ง๋ ํ์ต๋ NLP ๋ชจ๋ธ๋ค์ ์ตํ์ ๋ ์ด์ด์์ ๊ณตํต๋ ์ํคํ ์ฒ๋ฅผ ๊ณต์ ํ๊ธฐ ๋๋ฌธ์ ์ผ๊ด์ ์ด๊ณ ํต์ผ๋ ๋ฐฉ์์ผ๋ก ELMo๋ฅผ ์ถ๊ฐํ ์ ์์ต๋๋ค. token์ผ๋ก ์ด๋ฃจ์ด์ง ์์ด ์ด ์ฃผ์ด์ก์ ๋, ๊ฐ token์ ์์น์ ๋ํด์ ์ฌ์ ํ์ต๋ ๋จ์ด ์๋ฒ ๋ฉ๊ณผ ์ ํ์ ์ผ๋ก ๋ฌธ์ ๊ธฐ๋ฐ์ representation์ ์ฌ์ฉํ์ฌ ๋ฌธ๋งฅ ์์กด์ ์ธ token representation ๋ฅผ ํ์ฑํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์ model์ด ๋ฌธ๋งฅ์ ๋ฏผ๊ฐํ represeentation ๋ฅผ ํ์ฑํ๋ฉฐ, ์ ํ์ ์ผ๋ก bidirectional RNN, CNN ๋๋ feed forward network๊ฐ ์ฌ์ฉ๋ฉ๋๋ค. โELMo๋ฅผ ์ง๋ ํ์ต๋ ๋ชจ๋ธ์ ์ถ๊ฐํ๊ธฐ ์ํด์, ์ฐ๋ฆฌ๋ ์ฐ์ biLM์ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํ๊ณ ELMo vector ์ ๋ฅผ concatenateํ์ฌ ELMo enhanced representation ๋ฅผ task RNN์ผ๋ก ์ ๋ฌํฉ๋๋ค. ์ผ๋ถ task(e.g., SNLI, SQuAD)์ ๊ฒฝ์ฐ ์๋ก์ด ์ถ๋ ฅ ๊ฐ์ค์น๋ฅผ ๋์ ํ๊ณ ๋ฅผ ๋ก ๋์ฒดํ์ฌ task RNN์ ์ถ๋ ฅ์ ELMo๋ฅผ ๋์ ํจ์ผ๋ก์จ ์ถ๊ฐ์ ์ธ ๊ฐ์ ์ ๊ด์ธกํ์์ต๋๋ค. ์ง๋ ํ์ต๋ ๋ชจ๋ธ์ ๋๋จธ์ง ๋ถ๋ถ์ ๋ณ๊ฒฝ๋์ง ์์ผ๋ฏ๋ก ์ด๋ฌํ ๋์ ์ ๋ณต์กํ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๋งฅ๋ฝ์์ ์ผ์ด๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, bi-attention layer๊ฐ biLSTM์ ๋ค๋ฐ๋ฅผ ๋์ธ Sec. 4์ SNLI ์คํ ๋๋ biLSTM์ ์ต์์ ๋ ์ด์ด์ clustering model์ด ์ถ๊ฐ ๋์์ ๋ ์ํธ ์ฐธ์กฐ ํด๊ฒฐ ์คํ๋ค์ ๋ณด์.
โ์ต์ข ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ELMo์ ์ ๋นํ ์์ ๋๋กญ์์์ ์ถ๊ฐํ๋ ๊ฒ๊ณผ (Srivastava et al., 2014) ๋ช๋ช ์ํฉ์์ ELMo์ ๊ฐ์ค์น์ ์ ๋ํ์ฌ ๊ท์ ํ๋ ๊ฒ์ด ์ ์ตํ๋ค๋ ๊ฒ์ ์์๋ด์์ต๋๋ค. ์ด๋ ๋ชจ๋ biLM ๋ ์ด์ด์ ํ๊ท ์ ๊ฐ๊น๊ฒ ์์นํ๋๋ก ํ๊ธฐ ์ํด ELMo์ ๊ฐ์ค์น์ bias์ ์ ๋๋ฅผ ๊ฐ์ ํฉ๋๋ค.
3.4 Pre-trained bidirectional language model architecture
โ์ด ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ์ฌ์ ํ์ต๋ biLM์ Jozefowicz et al. (2016) ๋ฐ Kim et al. (2015)๊ณผ ์ ์ฌํ์ง๋ง, ์๋ฐฉํฅ์ ํฉ๋ ํ๋ จ์ ์ํด ์์ ๋์๊ณ LSTM ๋ ์ด์ด ์ฌ์ด์ residual connection์ ์ถ๊ฐํ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ์ด ์ฐ๊ตฌ์์ Peters et al. (2017)์ด ์ ๋ฐฉํฅ LM๊ณผ ๋๊ท๋ชจ ํ์ต์์ biLM์ ์ฌ์ฉํ๋ ๊ฒ์ ์ค์์ฑ์ ๊ฐ์กฐํ์๋ฏ์ด, ๋๊ท๋ชจ biLM์ ์ง์คํ์์ต๋๋ค.
โ๋ฌธ์ ๊ธฐ๋ฐ ์ ๋ ฅ representation์ ์ ์งํ ๋, ์ ์ฒด์ ์ธ ๋ชจ๋ธ์ ๋ณต์ก์ฑ๊ณผ ๋ชจ๋ธ์ ํฌ๊ธฐ, ๋ค์ด์คํธ๋ฆผ task๋ฅผ ์ํด ์๊ตฌ๋๋ ๊ณ์ฐ์ ๊ท ํ์ ๋ง์ถ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ Jozefowicz et al. (2016)์ CNN-BIG-LSTM์์ ๋ชจ๋ ์๋ฒ ๋ฉ ๋ฐ ํ๋ ๋ ์ด์ด์ ์ฐจ์์ ์ ๋ฐ์ผ๋ก ์ค์์ต๋๋ค. ์ต์ข ๋ชจ๋ธ์ 4096์ unit๊ณผ 512๊ฐ์ ์ฐจ์ ํฌ์ ๊ทธ๋ฆฌ๊ณ ์ฒซ ๋ฒ์งธ์ ๋ ๋ฒ์งธ ๋ ์ด์ด ์ฌ์ด์ residual connection์ ๊ฐ์ง biLSTM์ ๋๋ค. context insensitive type representation์ 2048 ๋ฌธ์ n-๊ทธ๋จ ์ปจ๋ณผ๋ฃจ์ ํํฐ์ ๋ ๊ฐ์ highway layer (Srivastava et al., 2015) ๊ทธ๋ฆฌ๊ณ 512 representation์ผ๋ก์ ์ ํ ์ฌ์์ ์ฌ์ฉํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก, biLM
References
[1] Jimmy Ba, Ryan Kiros, and Geoffrey E. Hinton. 2016. Layer normalization. CoRR abs/1607.06450. [2] Yonatan Belinkov, Nadir Durrani, Fahim Dalvi, Hassan Sajjad, and James R. Glass. 2017. What do neural machine translation models learn about morphology? In ACL. [3] Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. 2017. Enriching word vectors with subword information. TACL 5:135โ146. [4] Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. 2015. A large annotated corpus for learning natural language inference. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics. [5] Ciprian Chelba, Tomas Mikolov, Mike Schuster, Qi Ge, Thorsten Brants, Phillipp Koehn, and Tony Robinson. 2014. One billion word benchmark for measuring progress in statistical language modeling. In INTERSPEECH. [6] Qian Chen, Xiao-Dan Zhu, Zhen-Hua Ling, Si Wei, Hui Jiang, and Diana Inkpen. 2017. Enhanced lstm for natural language inference. In ACL. [7] Jason Chiu and Eric Nichols. 2016. Named entity recognition with bidirectional LSTM-CNNs. In TACL. [8] Kyunghyun Cho, Bart van Merrienboer, Dzmitry Bahdanau, and Yoshua Bengio. 2014. On the properties of neural machine translation: Encoder-decoder approaches. In SSST@EMNLP. [9] Christopher Clark and Matthew Gardner. 2017. Simple and effective multi-paragraph reading comprehension. CoRR abs/1710.10723. [10] Kevin Clark and Christopher D. Manning. 2016. Deep reinforcement learning for mention-ranking coreference models. In EMNLP. [11] Ronan Collobert, Jason Weston, Leon Bottou, Michael ยด Karlen, Koray Kavukcuoglu, and Pavel P. Kuksa. 2011. Natural language processing (almost) from scratch. In JMLR. [12] Andrew M. Dai and Quoc V. Le. 2015. Semisupervised sequence learning. In NIPS. [13]Greg Durrett and Dan Klein. 2013. Easy victories and uphill battles in coreference resolution. In EMNLP. [14] Yarin Gal and Zoubin Ghahramani. 2016. A theoretically grounded application of dropout in recurrent neural networks. In NIPS. [15] Yichen Gong, Heng Luo, and Jian Zhang. 2018. Natural language inference over interaction space. In ICLR. [16] Kazuma Hashimoto, Caiming Xiong, Yoshimasa Tsuruoka, and Richard Socher. 2017. A joint many-task model: Growing a neural network for multiple nlp tasks. In EMNLP 2017. [17] Luheng He, Kenton Lee, Mike Lewis, and Luke S. Zettlemoyer. 2017. Deep semantic role labeling: What works and whatโs next. In ACL. [18] Sepp Hochreiter and Jurgen Schmidhuber. 1997. Long ยจ short-term memory. Neural Computation 9. [19] Ignacio Iacobacci, Mohammad Taher Pilehvar, and Roberto Navigli. 2016. Embeddings for word sense disambiguation: An evaluation study. In ACL. [20] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam ยด Shazeer, and Yonghui Wu. 2016. Exploring the limits of language modeling. CoRR abs/1602.02410. [21] Rafal Jozefowicz, Wojciech Zaremba, and Ilya ยด Sutskever. 2015. An empirical exploration of recurrent network architectures. In ICML. [22] Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush. 2015. Character-aware neural language models. In AAAI 2016. [23] Diederik P. Kingma and Jimmy Ba. 2015. Adam: A method for stochastic optimization. In ICLR. [24] Ankit Kumar, Ozan Irsoy, Peter Ondruska, Mohit Iyyer, Ishaan Gulrajani James Bradbury, Victor Zhong, Romain Paulus, and Richard Socher. 2016. Ask me anything: Dynamic memory networks for natural language processing. In ICML. [25] John D. Lafferty, Andrew McCallum, and Fernando Pereira. 2001. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In ICML. [26] Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, and Chris Dyer. 2016. Neural architectures for named entity recognition. In NAACL-HLT. [27] Kenton Lee, Luheng He, Mike Lewis, and Luke S. Zettlemoyer. 2017. End-to-end neural coreference resolution. In EMNLP. [28] Wang Ling, Chris Dyer, Alan W. Black, Isabel Trancoso, Ramon Fermandez, Silvio Amir, Luยดฤฑs Marujo, and Tiago Luยดฤฑs. 2015. Finding function in form: Compositional character models for open vocabulary word representation. In EMNLP. [29] Xiaodong Liu, Yelong Shen, Kevin Duh, and Jianfeng Gao. 2017. Stochastic answer networks for machine reading comprehension. arXiv preprint arXiv:1712.03556 . [30] Xuezhe Ma and Eduard H. Hovy. 2016. End-to-end sequence labeling via bi-directional LSTM-CNNsCRF. In ACL. [31] Mitchell P. Marcus, Beatrice Santorini, and Mary Ann Marcinkiewicz. 1993. Building a large annotated corpus of english: The penn treebank. Computational Linguistics 19:313โ330. [32] Bryan McCann, James Bradbury, Caiming Xiong, and Richard Socher. 2017. Learned in translation: Contextualized word vectors. In NIPS 2017. [33] Oren Melamud, Jacob Goldberger, and Ido Dagan. 2016. context2vec: Learning generic context embedding with bidirectional lstm. In CoNLL. [34] Gabor Melis, Chris Dyer, and Phil Blunsom. 2017. On ยด the state of the art of evaluation in neural language models. CoRR abs/1707.05589. [35] Stephen Merity, Nitish Shirish Keskar, and Richard Socher. 2017. Regularizing and optimizing lstm language models. CoRR abs/1708.02182. [36] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations of words and phrases and their compositionality. In NIPS. [37] George A. Miller, Martin Chodorow, Shari Landes, Claudia Leacock, and Robert G. Thomas. 1994. Using a semantic concordance for sense identification. In HLT. [38 ]Tsendsuren Munkhdalai and Hong Yu. 2017. Neural tree indexers for text understanding. In EACL. [39] Arvind Neelakantan, Jeevan Shankar, Alexandre Passos, and Andrew McCallum. 2014. Efficient nonparametric estimation of multiple embeddings per word in vector space. In EMNLP. [40] Martha Palmer, Paul Kingsbury, and Daniel Gildea. 2005. The proposition bank: An annotated corpus of semantic roles. Computational Linguistics 31:71โ 106. [41] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. Glove: Global vectors for word representation. In EMNLP. [42] Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula, and Russell Power. 2017. Semi-supervised sequence tagging with bidirectional language models. In ACL. [43] Sameer Pradhan, Alessandro Moschitti, Nianwen Xue, Hwee Tou Ng, Anders Bjorkelund, Olga Uryupina, ยจ Yuchen Zhang, and Zhi Zhong. 2013. Towards robust linguistic analysis using ontonotes. In CoNLL. [44] Sameer Pradhan, Alessandro Moschitti, Nianwen Xue, Olga Uryupina, and Yuchen Zhang. 2012. Conll2012 shared task: Modeling multilingual unrestricted coreference in ontonotes. In EMNLPCoNLL Shared Task. [45] Alessandro Raganato, Claudio Delli Bovi, and Roberto Navigli. 2017a. Neural sequence learning models for word sense disambiguation. In EMNLP. [46] Alessandro Raganato, Jose Camacho-Collados, and Roberto Navigli. 2017b. Word sense disambiguation: A unified evaluation framework and empirical comparison. In EACL. [47] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. 2016. Squad: 100, 000+ questions for machine comprehension of text. In EMNLP. [48] Prajit Ramachandran, Peter Liu, and Quoc Le. 2017. Improving sequence to sequence learning with unlabeled data. In EMNLP. [49] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. In CoNLL. [50] Min Joon Seo, Aniruddha Kembhavi, Ali Farhadi, and Hannaneh Hajishirzi. 2017. Bidirectional attention flow for machine comprehension. In ICLR. [51] Richard Socher, Alex Perelygin, Jean Y Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts. 2013. Recursive deep models for semantic compositionality over a sentiment treebank. In EMNLP. [52] Anders Sรธgaard and Yoav Goldberg. 2016. Deep multi-task learning with low level tasks supervised at lower layers. In ACL 2016. [53] Nitish Srivastava, Geoffrey E. Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 2014. Dropout: a simple way to prevent neural networks from overfitting. Journal of Machine Learning Research 15:1929โ1958. [54] Rupesh Kumar Srivastava, Klaus Greff, and Jurgen ยจ Schmidhuber. 2015. Training very deep networks. In NIPS. [55] Joseph P. Turian, Lev-Arie Ratinov, and Yoshua Bengio. 2010. Word representations: A simple and general method for semi-supervised learning. In ACL. [56] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, and Ming Zhou. 2017. Gated self-matching networks for reading comprehension and question answering. In ACL. [57] John Wieting, Mohit Bansal, Kevin Gimpel, and Karen Livescu. 2016. Charagram: Embedding words and sentences via character n-grams. In EMNLP. [58] Sam Wiseman, Alexander M. Rush, and Stuart M. Shieber. 2016. Learning global features for coreference resolution. In HLT-NAACL. [59] Matthew D. Zeiler. 2012. Adadelta: An adaptive learning rate method. CoRR abs/1212.5701. [60] Jie Zhou and Wei Xu. 2015. End-to-end learning of semantic role labeling using recurrent neural networks. In ACL. [61] Peng Zhou, Zhenyu Qi, Suncong Zheng, Jiaming Xu, Hongyun Bao, and Bo Xu. 2016. Text classification improved by integrating bidirectional lstm with twodimensional max pooling. In COLING