ELMO 정리

linguistic contexts(model polysemy): 다의어. 눈(eyes,snow)같이 같은 단어인데 여러가지 의미를 가지는 경우 → 두 개의 임베딩은 반드시 달라야한다게 ELMO의 철학

•

각 token은 representation을 받는다.

•

bidirectional LSTM에서 임베딩 벡터들을 가져온다. 

•

Forward LM도 학습하고 Backward LM도 학습을 한다. 

•

biLM의 모든 layer에 해당하는 hidden vector들을 (선형)결합하는 방식으로 사용을 함
깊은 위쪽 layer의 representation은 context dependent(ex 분류, 감성분석)를 표현하고
얕은 아래의 layer의 representation은 syntax(구문 분석. ex syntax parsing, pos tagging)에 해당하는 feature를 포함하고 있다고 주장

•

각 token은 2L+12L+12L+1개의 representation을 가지게 된다.
L = layer 깊이 forwardLM L개 + backwardLM L개 + 처음 단어의 임베딩 1개

한 단어에 대한 임베딩 값 구하기

각 층(level)에서의 hidden state(or 임베딩 벡터)를 concatenate하여 붙인다.

weight(s0,s1,s2s_0,s_1,s_2s0​,s1​,s2​)를 곱해주고 (task의 종류에 따라 다르게 weight를 준다.)

가중합을 하게 된다.

input vector에 ELMO vector를 concatnate하는게 가장 좋은 성능을 낸다.