About me
home
Portfolio
home

BERT 정리

Bidirectional Encoder Representations from Transformer의 약자이다.
BERT 는 ‘사전 훈련 언어모델’ 이다
결국 Fine-Tuning을 해야하는 모델이고, 모든 자연어 처리 과제에서 좋은 성능을 내는 범용 Language Model이다.
Transformer의 Encoder block을 사용한다. (인코더를 쌓아올린 구조)
BERT-Base는 12개의 인코더 블록, BERT-Large는 24개의 인코더 블록을 사용
Pre-training : unlabeled data training (사람이 직접 labeling 해줄 필요 없다.)
Fine-tuning: downstream에서 labeled data를 사용함
BERT는 ELMo나 GPT-1과 마찬가지로 문맥을 반영한 임베딩(Contextual Embedding)을 사용한다 이때 Self-Attention을 쓰기 때문에 문맥을 반영한 출력 임베딩을 얻을 수 있게 된다

Bert의 내부 동작 과정

Pre-training 하기 위한 2가지 unsupervised tasks

BERT, GPT , ELMO 의 차이점