본문 바로가기

Deep Learning3

[ML] RNN 에서의 gradient 계산 아래와 같은 RNN formulation에서의 gradient 계산은 어떻게 되는지 정리해 보겠습니다. Loss 는 Cross Entropy Loss를 가정하겠습니다. 간단한 Chain Rule을 통해 다음과 같이 계산할 수 있습니다. 마지막 외적으로 계산되는 항의 계산은 스킵했습니다. MSE loss 로하면 비슷하게 나올 것 같은데, CE loss 로 해도 동일하게 나오는지 나중에 따로 유도한다면 올리겠습니다. 여기서 눈여겨 볼 만한 부분은, V에 대한 gradient는 오로지 현재 state의 값들에만 의존한다는 것입니다. 좀 다르게, W에 대한 gradient는 뒷 state 에도 영향을 받습니다. 여기서 파랑 네모에 있는 부분을 보면, gradient가 이전 state들에서의 gradient의 곱.. 2022. 10. 11.
[Paper] Diet Code Is Healthy: Simplifying Programs for Pre-Trained Models of Code 안녕하세요 왕새우 여러분, 오늘 살펴볼 논문은 2022년 ESEC/FSE에 발표될 Diet Code Is Healthy: Simplifying Programs for Pre-Trained Models of Code 입니다. Program Simplification을 통해 source code 관련 task 에서의 computation을 줄이는 것이 목표입니다. 요새는 Software Engineering task들을 해결하기 위해 언어 모델이 많이 사용되고 있습니다. 또한 모든 task에 대하여 전부 처음부터 학습시키는 경우보다 미리 어느 정도 학습을 시켜놓은 모델을 가져와서 학습을 시키는 pre-trained model을 많이 사용합니다. 헌데 본 논문은, 이러한 pre trained 모델을 학습시키.. 2022. 9. 2.
[Paper] Conditional Positional Encodings for Vision Transformers 오늘 훑어볼 논문은 'Conditional Positional Encodings for Vision Transformers' 이라는 논문입니다. 원래 ViT (Vision Transformers) 에서는 각 이미지를 자른 후, 이에 해당하는 predefined positional embedding을 넣어줍니다. (a) 사실 이러한 방식은 비전 분야에 국한된 것이 아니라, 다른 다양한 분야들에서도 비슷하게 적용되죠. 허나 본 논문에서는 predefine 된 pe가 아닌, learnable 한 pe를 사용하는 방법을 제안합니다. (b) 또한 레이어 하나를 제외하고, 마지막에 Global Average Pooling을 넣어주는 (GAP) 를 사용하면 퍼포먼스가 올라간다는 것까지 보여줍니다. (c) (논문에서 .. 2022. 8. 25.