Bayesian deep learning 정리

BNN (Bayesian Neural Network)

기존의 뉴럴 네트워크가 파라미터를 어떠한 값으로 가지고 있었다면, BNN은 파라미터 자체를 하나의 분포로 본다. 결과를 낼 때에는 파라미터 하나 하나를 그 파라미터의 분포에서 Sampling을 통해서 얻고, 파라미터를 학습하는 것이 아니라 그 파라미터의 분포를 설명할 수 있는 값(정규분포에서 평균과 표준편차)을 업데이트한다.

따라서 BNN의 베이지안 추론은 다음과 같이 파라미터의 posterior distribution을 계산한다.

BNN은 잘 모르겠다(Uncertainty)라는 것을 답할 수 있는 뉴럴 넷이다. → over-confidence 문제 해결

BNN의 문제점: posterior distribution을 정확하게 계산할 수 없다. → intractable

이에 대한 해결책 (아래 2가지)

Variational Inference

MC Dropout

정리

point estimate가 아니라 distribution을 얻는다.

posterior를 구하는 것이 목적

output으로부터 distribution을 받기 때문에 , 예측에 대한 불확실성을 계산할 수 있다.

단점으로는 posterior distribution을 계산하는데 어려움이 있어서, variational inference나 MC dropout같은 기술을 이용하여야 한다.

Bayesian deep learning 정리

BNN (Bayesian Neural Network)

Variational Inference

MC Dropout

SGD Based Approximation( SWA, SWAG )

Laplace Approximation