https://arxiv.org/abs/2111.02114
LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs (Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran Komatsuzaki)
vision-language 타이밍에 맞게 이쪽도 올라왔군요. LAION 자체가 EleutherAI와 비슷한 기획이었네요.
clip으로 필터링했다는 것은 여전히 좀 걸리긴 하는데 흠 잘 모르겠네요.
#dataset