InternLM MultiModal SIG #591

Nobody-ML · 2024-03-18T17:48:45Z

Nobody-ML
Mar 18, 2024

目的：探索、学习多模态大模型架构和下游任务,并产出多个最佳实践和典型案例
时间周期：2024年3月——6月
人类通过视觉、听觉、触觉、语言等多维感知来理解、感受世界，现今人工智能的发展正向着多维感知的方向不断发展，Large Language Model 的出现让通用强人工智能成为了可能，但是 Large Language Model 仅有文本模态，不足以满足人们意图需求，为此需要在 LLM 的基础上增加视觉编码器和连接视觉与语言模型的 Layer，构建出能遵循多模式视觉和语言指令的多模态模型，这样才能更好地完成现实任务，实现多模态交互。

兴趣小组主线任务：
1、学习多模态大模型的架构，了解其工作原理；
2、构建多模态大模型相关项目；
3、多模态大模型 Arxiv 论文产出。

组员福利：
良好的学习氛围
优秀组员证书
上海人工智能实验室内推机会
免费且充足的算力支持
上海人工智能实验室研究员亲自指导

InternLM 社区已有多模态工作：
InternLM-XComposer：https://github.com/InternLM/InternLM-XComposer
InternVL：https://github.com/OpenGVLab/InternVL

小伙伴如果有相关的项目欢迎参与贡献~
想参与的同学欢迎联系浦语小助手（微信搜索 InternLM），或者联系兴趣小组组长Nobody（微信搜索：LTY1755309985）

飞书共享文件夹：https://aicarrier.feishu.cn/wiki/ZKDpw5mkfitfqHkt9kRcVnTwnMh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

InternLM MultiModal SIG #591

{{title}}

Replies: 0 comments

Select a reply

InternLM MultiModal SIG #591

Nobody-ML Mar 18, 2024

Replies: 0 comments

Nobody-ML
Mar 18, 2024