https://arxiv.org/abs/2205.10063

Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality (Xiang Li, Wenhai Wang, Lingfeng Yang, Jian Yang)

mim이 좋은데, swin 같은 hierarchical vit에서도 mae처럼 마스크 토큰을 빼고 이미지 토큰만 사용해서 효율적으로 학습시킬 수 있을 것인가? 를 위한 방법 1: 일정 윈도우 크기 내에 일정 수의 토큰만 마스킹하고, 윈도우 크기를 줄여 마스킹 되지 않은 토큰만 걸러내는 방법.

#self_supervised

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220520 Uniform Masking.md

220520 Uniform Masking.md

Files

220520 Uniform Masking.md

Latest commit

History

220520 Uniform Masking.md

File metadata and controls