https://arxiv.org/abs/2205.10063
Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality (Xiang Li, Wenhai Wang, Lingfeng Yang, Jian Yang)
mim이 좋은데, swin 같은 hierarchical vit에서도 mae처럼 마스크 토큰을 빼고 이미지 토큰만 사용해서 효율적으로 학습시킬 수 있을 것인가? 를 위한 방법 1: 일정 윈도우 크기 내에 일정 수의 토큰만 마스킹하고, 윈도우 크기를 줄여 마스킹 되지 않은 토큰만 걸러내는 방법.
#self_supervised