LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs (Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran Komatsuzaki)

vision-language 타이밍에 맞게 이쪽도 올라왔군요. LAION 자체가 EleutherAI와 비슷한 기획이었네요.

clip으로 필터링했다는 것은 여전히 좀 걸리긴 하는데 흠 잘 모르겠네요.

#dataset

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

211103 LAION-400M.md

211103 LAION-400M.md

Files

211103 LAION-400M.md

Latest commit

History

211103 LAION-400M.md

File metadata and controls