vision transformer에 대한 개선이 요즘 많이 나오고 있는데...이번 주에 눈에 띈 것만 해도 4편. (https://arxiv.org/abs/2103.10619, https://arxiv.org/abs/2103.10697, https://arxiv.org/abs/2103.11816, https://arxiv.org/abs/2103.11886) 물론 더 나오겠지만.
그런데 이 중 3편이 cnn의 특성을 반영하는 것 혹은 cnn 아키텍처의 특성을 트랜스포머에 주입하는 것이 중심 아이디어이다. https://arxiv.org/abs/2012.12877 에서 이미 시사된 것 같긴 한데 트랜스포머도 cnn에 가깝게 거동할 때 샘플 효율적인 것으로 보이고 https://arxiv.org/abs/2102.12122 에서 시사되었듯 풀링으로 feature map을 줄여줘야 연산 효율적이다. 물론 소프트한 제약을 걸어주는 정도이니 cnn의 슈퍼셋으로 동작한다고 생각하면 여전히 장점이 있겠지만 약간 이게 맞나 싶은 느낌은 든다.
뭐 여전히 연구적으로는 흥미롭다고 생각하고 이런 모델들을 가지고 실험해보는 것도 좋아하긴 하지만, 뭔가 rnn을 트랜스포머로 갈아치울 때의 느낌과는 좀 다르긴 하다. 약간 rnn을 cnn으로 대체해보려는 시도가 많았을 때의 느낌이라고 할까.
#review