Teacher 모델 : WRN(Wide Residual Network) / Student 모델 : ResNet18
Base ResNet18 | Base WRN | Distilled RestNet18 | |
Accuracy | 0.9417 | 0.9293 | 0.9433 |
Parameter # | 11,173,962 | 36,479,194 | 11,173,962 |
1.
성능 향상: Distilled ResNet18은 Base ResNet18보다 약간 더 높은 성능을 보인다. 이는 WRN의 지식이 효과적으로 전달되었음을 의미한다.
2.
파라미터 효율성: Distilled ResNet18은 WRN과 높은 성능을 보이면서도 훨씬 적은 수의 파라미터를 사용한다. 이는 지식 증류가 모델 크기를 줄이면서도 성능을 유지하거나 향상시킬 수 있음을 보여준다.
3.
실용성: Distilled ResNet18은 파라미터 수가 적어서, 메모리 효율성이 높고, 추론 속도도 빠를 것이다. 이러한 특성은 제한된 컴퓨팅 리소스를 가진 환경에서 유용하다.