About me
home
Portfolio
home
🏏

GRU 정리

GRU는 조경현 교수님(한국분)이 집필한 논문에서 제안되었다.
GRU는 LSTM에서 은닉 상태를 업데이트하는 계산을 줄였다. 따라서 LSTM과 유사하면서 복잡했던 구조를 살짝 단순화시켰다. LSTM보다 학습속도는 빨라졌지만 성능은 LSTM과 비슷하다.
LSTM에서는 셀 상태 공식이 아래와 같았다.(gtg_t == Ct~ \tilde{C_t})
GRU는Ct C_thth_t로 바뀌었고 식은 아래와 같다.
forget gateinput gate를 합쳐 update gate가 되었고 Cell state(CtC_t)와 hidden state(hth_t)를 합쳐져 hidden state(hth_t)로 표현한다.
LSTM에서는 forget과 input이 서로 독립적이었으나, GRU에서는 전체 양이 정해져있어(=1) 이 trade-off 관계이다. (1zt)+zt=1(1 - z_t) + z_t = 1
1) Reset Gate (rt)(r_t)
이전 상태를 얼마나 반영할지
2) Update Gate (zt)(z_t)
이전 정보현재 정보를 각각 얼마나 반영할 것인지에 대한 비율을 결정 ht1h_{t-1}은 과거 정보, ht~\tilde{h_t}는 현재 정보라고 생각하면 되고
ztz_t 로 두 정보의 비율을 정한다고 이해하면 편하다.