About me
home
Portfolio
home

ELMO 정리

linguistic contexts(model polysemy): 다의어. 눈(eyes,snow)같이 같은 단어인데 여러가지 의미를 가지는 경우 → 두 개의 임베딩은 반드시 달라야한다게 ELMO의 철학
각 token은 representation을 받는다.
bidirectional LSTM에서 임베딩 벡터들을 가져온다.
Forward LM도 학습하고 Backward LM도 학습을 한다.
biLM의 모든 layer에 해당하는 hidden vector들을 (선형)결합하는 방식으로 사용을 함 깊은 위쪽 layer의 representation은 context dependent(ex 분류, 감성분석)를 표현하고 얕은 아래의 layer의 representation은 syntax(구문 분석. ex syntax parsing, pos tagging)에 해당하는 feature를 포함하고 있다고 주장
각 token은 2L+12L+1개의 representation을 가지게 된다. L = layer 깊이 forwardLM L개 + backwardLM L개 + 처음 단어의 임베딩 1개

한 단어에 대한 임베딩 값 구하기

1.
각 층(level)에서의 hidden state(or 임베딩 벡터)를 concatenate하여 붙인다.
2.
weight(s0,s1,s2s_0,s_1,s_2)를 곱해주고 (task의 종류에 따라 다르게 weight를 준다.)
3.
가중합을 하게 된다.
input vector에 ELMO vector를 concatnate하는게 가장 좋은 성능을 낸다.