Neural Image Caption(NIC)
이미지 캡션(Image Caption Generation): 이미지를 설명하는 캡션(설명)을 만들어 내는 것 이미지를 input으로 넣으면 이미지를 설명하는 text가 output으로 나온다. 즉 CNN으로 이미지의 특징을 추출한 뒤에 RNN을 거쳐 문장을 생성한다. (엄청 신기하다)
•
CNN 모델로 인코딩하면 (마지막 FC layer는 제외) 임베딩 특징 벡터가 나오게 되는데
이를 LSTM 모델의 input으로 넣는다. 그러면 output으로 캡션(영어문장)이 나오게 된다.
•
perplexity(PPL): 언어 모델 평가 지표 metric
”헷갈리는 정도”로 해석하면 된다. 즉 낮을수록 성능이 좋다는 의미
코드 분석
마지막 predict caption 부분 (개 이미지를 모델에 넣어서 수행한거)
교재 github 출력 부분 (epoch 5 다 한거)
내가 colab에서 epoch 1만 해서 한거 (오히려 더 좋은 text 뽑아냄)