linguistic contexts(model polysemy): 다의어. 눈(eyes,snow)같이 같은 단어인데 여러가지 의미를 가지는 경우
→ 두 개의 임베딩은 반드시 달라야한다게 ELMO의 철학
•
각 token은 representation을 받는다.
•
bidirectional LSTM에서 임베딩 벡터들을 가져온다.
•
Forward LM도 학습하고 Backward LM도 학습을 한다.
•
biLM의 모든 layer에 해당하는 hidden vector들을 (선형)결합하는 방식으로 사용을 함
깊은 위쪽 layer의 representation은 context dependent(ex 분류, 감성분석)를 표현하고
얕은 아래의 layer의 representation은 syntax(구문 분석. ex syntax parsing, pos tagging)에 해당하는 feature를 포함하고 있다고 주장
•
각 token은 개의 representation을 가지게 된다.
L = layer 깊이 forwardLM L개 + backwardLM L개 + 처음 단어의 임베딩 1개
한 단어에 대한 임베딩 값 구하기
1.
각 층(level)에서의 hidden state(or 임베딩 벡터)를 concatenate하여 붙인다.
2.
weight()를 곱해주고 (task의 종류에 따라 다르게 weight를 준다.)
3.
가중합을 하게 된다.
input vector에 ELMO vector를 concatnate하는게 가장 좋은 성능을 낸다.