•
GRU는 조경현 교수님(한국분)이 집필한 논문에서 제안되었다.
•
GRU는 LSTM에서 은닉 상태를 업데이트하는 계산을 줄였다.
따라서 LSTM과 유사하면서 복잡했던 구조를 살짝 단순화시켰다.
LSTM보다 학습속도는 빨라졌지만 성능은 LSTM과 비슷하다.
LSTM에서는 셀 상태 공식이 아래와 같았다.( == )
GRU는가 로 바뀌었고 식은 아래와 같다.
forget gate와 input gate를 합쳐 update gate가 되었고
Cell state()와 hidden state()를 합쳐져 hidden state()로 표현한다.
LSTM에서는 forget과 input이 서로 독립적이었으나,
GRU에서는 전체 양이 정해져있어(=1) 둘이 trade-off 관계이다.
1) Reset Gate
이전 상태를 얼마나 반영할지
2) Update Gate
이전 정보와 현재 정보를 각각 얼마나 반영할 것인지에 대한 비율을 결정
은 과거 정보, 는 현재 정보라고 생각하면 되고
로 두 정보의 비율을 정한다고 이해하면 편하다.