Ai1 [ML] RNN 에서의 gradient 계산 아래와 같은 RNN formulation에서의 gradient 계산은 어떻게 되는지 정리해 보겠습니다. Loss 는 Cross Entropy Loss를 가정하겠습니다. 간단한 Chain Rule을 통해 다음과 같이 계산할 수 있습니다. 마지막 외적으로 계산되는 항의 계산은 스킵했습니다. MSE loss 로하면 비슷하게 나올 것 같은데, CE loss 로 해도 동일하게 나오는지 나중에 따로 유도한다면 올리겠습니다. 여기서 눈여겨 볼 만한 부분은, V에 대한 gradient는 오로지 현재 state의 값들에만 의존한다는 것입니다. 좀 다르게, W에 대한 gradient는 뒷 state 에도 영향을 받습니다. 여기서 파랑 네모에 있는 부분을 보면, gradient가 이전 state들에서의 gradient의 곱.. 2022. 10. 11. 이전 1 다음