•
Bidirectional Encoder Representations from Transformer의 약자이다.
•
BERT 는 ‘사전 훈련 언어모델’ 이다
•
결국 Fine-Tuning을 해야하는 모델이고, 모든 자연어 처리 과제에서 좋은 성능을 내는 범용 Language Model이다.
•
Transformer의 Encoder block을 사용한다. (인코더를 쌓아올린 구조)
•
BERT-Base는 12개의 인코더 블록, BERT-Large는 24개의 인코더 블록을 사용
•
Pre-training : unlabeled data training (사람이 직접 labeling 해줄 필요 없다.)
•
Fine-tuning: downstream에서 labeled data를 사용함
•
BERT는 ELMo나 GPT-1과 마찬가지로 문맥을 반영한 임베딩(Contextual Embedding)을 사용한다
이때 Self-Attention을 쓰기 때문에 문맥을 반영한 출력 임베딩을 얻을 수 있게 된다