positional embedding1 [Paper] Conditional Positional Encodings for Vision Transformers 오늘 훑어볼 논문은 'Conditional Positional Encodings for Vision Transformers' 이라는 논문입니다. 원래 ViT (Vision Transformers) 에서는 각 이미지를 자른 후, 이에 해당하는 predefined positional embedding을 넣어줍니다. (a) 사실 이러한 방식은 비전 분야에 국한된 것이 아니라, 다른 다양한 분야들에서도 비슷하게 적용되죠. 허나 본 논문에서는 predefine 된 pe가 아닌, learnable 한 pe를 사용하는 방법을 제안합니다. (b) 또한 레이어 하나를 제외하고, 마지막에 Global Average Pooling을 넣어주는 (GAP) 를 사용하면 퍼포먼스가 올라간다는 것까지 보여줍니다. (c) (논문에서 .. 2022. 8. 25. 이전 1 다음