DETR 정리

DETR (DEtection TRansformer)는 Facebook AI에서 개발한 최신 객체 감지(Object Detection) 모델이다. DETR은 Transformer 구조를 사용하여 객체 감지 문제를 간단하고 효과적으로 해결한다.

End-to-End 객체 감지: DETR은 객체 감지 문제를 단일 모델로 해결한다. 기존의 객체 감지 모델과 달리, 복잡한 후처리 과정 없이 객체의 위치와 클래스를 직접 예측한다.

Transformer 구조 사용: DETR은 Transformer 구조를 사용하여 이미지의 전역적 정보를 효과적으로 활용한다. 이를 통해 객체 간의 관계를 고려하여 더 정확한 예측이 가능한다.

바이파티트 매칭(Bipartite Matching): DETR은 예측된 객체와 실제 객체 사이의 최적 매칭을 찾기 위해 바이파티트 매칭을 사용한다. 이를 통해 중복 감지 문제를 해결하고 더 정확한 객체 감지가 가능한다.

CNN 백본(Backbone): ResNet 등의 CNN 구조를 사용하여 이미지의 특징을 추출한다.

Transformer 인코더: 추출된 이미지 특징을 입력으로 받아, 전역적 정보를 학습한다.

Transformer 디코더: 객체 쿼리(Object Query)를 입력으로 받아, 객체의 위치와 클래스를 예측한다.