https://arxiv.org/abs/2211.01324
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers (Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, Bryan Catanzaro, Tero Karras, Ming-Yu Liu)
NVIDIA 쪽도 diffusion으로 완전히 넘어온 것 같군요. (당연한 건가요?) text to image diffusion 모델의 diffusion step을 살펴보면 초반에는 텍스트의 영향을 많이 받다가 이후에는 텍스트 없이 diffusion 모델이 알아서 처리하는 패턴이 나타나는데 이걸 이용하는 방식입니다. 모델 하나로 시작해서 모델 branch를 만든 다음 초반, 중반, 후반용 모델로 쪼개는 접근이군요. 실용적으로 step을 분담시켜 모델 크기를 키우는 것이라고 할 수도 있지 않을까 싶네요.
#ddpm #text2img