Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 550 Bytes

220520 Uniform Masking.md

File metadata and controls

7 lines (4 loc) · 550 Bytes

https://arxiv.org/abs/2205.10063

Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality (Xiang Li, Wenhai Wang, Lingfeng Yang, Jian Yang)

mim이 좋은데, swin 같은 hierarchical vit에서도 mae처럼 마스크 토큰을 빼고 이미지 토큰만 사용해서 효율적으로 학습시킬 수 있을 것인가? 를 위한 방법 1: 일정 윈도우 크기 내에 일정 수의 토큰만 마스킹하고, 윈도우 크기를 줄여 마스킹 되지 않은 토큰만 걸러내는 방법.

#self_supervised