prompt_image的定义 #227

qiqigit · 2025-01-13T17:41:48Z

非常感谢各位分享本项目！有两个小问题想要请教一下：

Line 113 in 13ef0fa

    
           prompt_embeds = self.text_encoder(self.tokenize_captions([""], 2).to(self.gpu_id))[0]

1.我们注意到作为UNet的condition定义的prompt_embeds中对应的文本其实是空的。请问此处没有单独使用prompt_image作为condition，而是用长度为2的序列prompt_embeds做condition，单纯是为了便于进行cross attention的运算吗？（满足key的长度大于1）

2.stable diffusion中text prompt默认的token数似乎为77，即构建了一个长度为77的序列作为condition来与UNet进行cross attention运算，而本项目中没有进行padding将token数强行扩大为77而是直接运用了长度为2的序列，请问这样操作有什么理由吗？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

prompt_image的定义 #227

prompt_image的定义 #227

qiqigit commented Jan 13, 2025

prompt_image的定义 #227

prompt_image的定义 #227

Comments

qiqigit commented Jan 13, 2025