作者您好! 非常抱歉打扰您!但是我运行您的代码的时候,发现clip的visual端输出的 每一层的特征都是一样的。 首先声明:我重新下载了您的代码,只更改了数据集的路径,其他什么都没有改! 经过排除,发现,只要在train.py中调用model.visual.DAPM_replace(DPAM_layer = 20)这句话,也就是说,只要把 attention换成v-v attention,以后的特征就会变得一样。那么 多层和单层 没有区别了,使用多层还有什么意义? 希望作者能帮我解惑。谢谢🙏