About me
home
Portfolio
home
🏉

Image Captioning 정리

Neural Image Caption(NIC)

이미지 캡션(Image Caption Generation): 이미지를 설명하는 캡션(설명)을 만들어 내는 것 이미지를 input으로 넣으면 이미지를 설명하는 text가 output으로 나온다. 즉 CNN으로 이미지의 특징을 추출한 뒤에 RNN을 거쳐 문장을 생성한다. (엄청 신기하다)

CNN 모델로 인코딩하면 (마지막 FC layer는 제외) 임베딩 특징 벡터가 나오게 되는데 이를 LSTM 모델의 input으로 넣는다. 그러면 output으로 캡션(영어문장)이 나오게 된다.
perplexity(PPL): 언어 모델 평가 지표 metric ”헷갈리는 정도”로 해석하면 된다. 즉 낮을수록 성능이 좋다는 의미

코드 분석

마지막 predict caption 부분 (개 이미지를 모델에 넣어서 수행한거)

교재 github 출력 부분 (epoch 5 다 한거)
내가 colab에서 epoch 1만 해서 한거 (오히려 더 좋은 text 뽑아냄)