Swin Transformer 정리

기존 ViT의 문제점:

연산량이 해상도의 제곱에 비례한다. (Quadratic computation complexity)

segmantation과 같은 dense prediction이나 고해상도 이미지를 수행할 수 없다. 

Shifted Window를 이용한 Transformer

•

Hierarchical한 Transformer 구조를 도입하여 self-attention 계산을 global이 아닌 non-overlapping local window로 제한하였다. 즉 각 window 내에서만 self-attention이 이루어진다.

•

Swin Transformer는 classification뿐만 아니라, Object Detection, Segmentation에서도 general backbone으로 사용되어 좋은 성능을 낸다.

•

Quadric complexity

해상도(H,W)가 커질수록 계산량은 제곱배로 커진다.

•

Global self attention

한 이미지에서 196개의 patch로 쪼개어 각 patch끼리 다 self-attention을 수행한다.

•

Linear complexity

M=7로 고정값이므로

2M^2

도 고정값

•

window 내에서만 attention 계산

•

hierarchical한 구조

feature pyramid network처럼 작은 patch 4x4 에서 시작해 점점 patch들을 merge 해나가는 방식이다.