Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 624 Bytes

210819 Do Vision Transformers See Like Convolutional Neural Networks.md

File metadata and controls

7 lines (4 loc) · 624 Bytes

https://arxiv.org/abs/2108.08810

Do Vision Transformers See Like Convolutional Neural Networks? (Maithra Raghu, Thomas Unterthiner, Simon Kornblith, Chiyuan Zhang, Alexey Dosovitskiy)

물론 당연히 다르겠죠 ㅋㅋ 이긴 한데 재미있는 부분이 많네요. 1. vit는 cnn보다 representation 서로 유사하다 2. 데이터가 적을 때는 vit의 낮은 레벨 어텐션은 로컬리티를 학습하지 못한다, 즉 컨볼루션처럼 로컬 feature를 끌어오는 패턴을 학습하지 못한다. 3. vit가 resnet보다 입력의 spatial location을 더 잘 보존한다. 흥미롭네요.

#vit #resnet