•
Transformer는 RNN과 완전히 이별하였다. (자연어처리 분야의 게임 체인저)
RNN과 달리, Transformer는 순차적으로 입력값을 주지 않는다.
(병렬적으로 한번에 처리가 가능하여 속도가 빠르다) → GPU 사용 가능
•
그래서 시퀀스 정보를 따로 넣어줘야 한다 → Positional Encoding 사용
주요 키워드
- Positional Encoding
- Query, Key, Value ** 각각 64-dim
- Self Attention ** Encoder, Decoder 각각 6개 블록을 직렬로 사용
- Scaled Dot-Product Attention
- Multi-Head Attention ** Attention을 8개 병렬로 사용
- Position-wise Feed-Forward Networks ** hidden layer = 2048-dim
•
seq_len : 입력 문장의 길이(= token 개수)
•
d_model : 행렬에서 열의 크기(차원이라고도 한다.)
•
: Q, K ,V의 열 크기 (= 64-dim)