Transformer 정리

•

Transformer는 RNN과 완전히 이별하였다. (자연어처리 분야의 게임 체인저)

RNN과 달리, Transformer는 순차적으로 입력값을 주지 않는다. (병렬적으로 한번에 처리가 가능하여 속도가 빠르다) → GPU 사용 가능

•

 그래서 시퀀스 정보를 따로 넣어줘야 한다 → Positional Encoding 사용

주요 키워드 - Positional Encoding - Query, Key, Value ** 각각 64-dim - Self Attention ** Encoder, Decoder 각각 6개 블록을 직렬로 사용 - Scaled Dot-Product Attention - Multi-Head Attention ** Attention을 8개 병렬로 사용 - Position-wise Feed-Forward Networks ** hidden layer = 2048-dim

•

seq_len : 입력 문장의 길이(= token 개수)

•

d_model : 행렬에서 열의 크기(차원이라고도 한다.)

•

dkd_kdk​ : Q, K ,V의 열 크기 (= 64-dim)

Transformer 정리

전체 구조

Positional Encoding

Attention

Position-wise FFNN

Residual connection & Layer Normalization

[Encoder]

[Decoder]

BLEU

후속 모델들 (transformer 계열) 한줄 소개