About me
home
Portfolio
home
🔖

Seq2Seq 정리

챗봇이나 번역기에서 대표적으로 사용되는 모델이다. 여기서부터 인코더, 디코더가 등장하게 된다. (LSTM이나 GRU 셀들로 된 구조이다) 가운데에 있는 것은 컨텍스트 벡터(context vector)로 하나의 문장이 들어올때마다 context vector로 압축되고 이는 디코더의 첫번째 hidden state로 사용되고 첫번째 input은 <sos>이다.
물론 모든 단어들은 embedding vector로 변환 후 input으로 사용된다.
훈련(train) : Teacher forching 기법을 사용하여 정답을 계속 알려주면서 학습시킨다.
실제 사용(test) : <eos>나 output으로 나올때까지 output이 다음 input으로 들어간다.
디코더에서 각 시점의 output vector가 나오면 softmax 함수를 통해 각 단어별 확률값을 반환하고 가장 확률이 높은 단어가 출력된다.