Do Vision Transformers See Like Convolutional Neural Networks? (Maithra Raghu, Thomas Unterthiner, Simon Kornblith, Chiyuan Zhang, Alexey Dosovitskiy)

물론 당연히 다르겠죠 ㅋㅋ 이긴 한데 재미있는 부분이 많네요. 1. vit는 cnn보다 representation 서로 유사하다 2. 데이터가 적을 때는 vit의 낮은 레벨 어텐션은 로컬리티를 학습하지 못한다, 즉 컨볼루션처럼 로컬 feature를 끌어오는 패턴을 학습하지 못한다. 3. vit가 resnet보다 입력의 spatial location을 더 잘 보존한다. 흥미롭네요.

#vit #resnet

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210819 Do Vision Transformers See Like Convolutional Neural Networks.md

210819 Do Vision Transformers See Like Convolutional Neural Networks.md

Files

210819 Do Vision Transformers See Like Convolutional Neural Networks.md

Latest commit

History

210819 Do Vision Transformers See Like Convolutional Neural Networks.md

File metadata and controls