InternLM MultiModal SIG #591
Nobody-ML
started this conversation in
MultiModal
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
目的:探索、学习多模态大模型架构和下游任务,并产出多个最佳实践和典型案例
时间周期:2024年3月——6月
人类通过视觉、听觉、触觉、语言等多维感知来理解、感受世界,现今人工智能的发展正向着多维感知的方向不断发展,Large Language Model 的出现让通用强人工智能成为了可能,但是 Large Language Model 仅有文本模态,不足以满足人们意图需求,为此需要在 LLM 的基础上增加视觉编码器和连接视觉与语言模型的 Layer,构建出能遵循多模式视觉和语言指令的多模态模型,这样才能更好地完成现实任务,实现多模态交互。
兴趣小组主线任务:
1、学习多模态大模型的架构,了解其工作原理;
2、构建多模态大模型相关项目;
3、多模态大模型 Arxiv 论文产出。
组员福利:
良好的学习氛围
优秀组员证书
上海人工智能实验室内推机会
免费且充足的算力支持
上海人工智能实验室研究员亲自指导
InternLM 社区已有多模态工作:
InternLM-XComposer:https://github.com/InternLM/InternLM-XComposer
InternVL:https://github.com/OpenGVLab/InternVL
小伙伴如果有相关的项目欢迎参与贡献~
想参与的同学欢迎联系浦语小助手(微信搜索 InternLM),或者联系兴趣小组组长Nobody(微信搜索:LTY1755309985)
飞书共享文件夹:https://aicarrier.feishu.cn/wiki/ZKDpw5mkfitfqHkt9kRcVnTwnMh
Beta Was this translation helpful? Give feedback.
All reactions