https://arxiv.org/abs/2112.13692
Augmenting Convolutional networks with attention-based aggregation (Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Piotr Bojanowski, Armand Joulin, Gabriel Synnaeve, Hervé Jégou)
16 stride patch 기반 cnn에 attention pooling을 마지막에 달아서 classification에 쓰는 방식으로 visualization을 위한 클래스별 맵을 만들겠다는 아이디어. motivation은 그런데 결과적으로 나온 모델이 segmentation과 detection에서 성능이 꽤 좋네요. 어떻게 받아들여야 할지 좀 헷갈리네요.
#backbone #vit #cnn