https://github.com/Stability-AI/generative-models
SDXL의 테크 리포트가 나왔군요. 트랜스포머 레이어의 재배치와 추가, 규모 확대, 이미지 크기와 크롭에 대한 conditioning, 다양한 aspect ratio에 대한 학습, 높은 퀄리티의 이미지에 대해 특화된 refinement 모델 추가 등등의 튜닝이 눈에 띄네요.
개인적으로는 future work가 눈에 띄는데 역시 refinement 모델이 따로 있다는 걸 가장 거슬려하는 것 같군요. 조금 다른 결이라고 할 수도 있겠는데 image generation도 human preference 기반의 alignment (?) 문제를 풀어야 하는 것일까 하는 생각이 듭니다.
#text2img #ddpm