Skip to content

VovyH/MultiAgent-Search

Repository files navigation

MultiAgent-Search:基于多智能体识别图像位置

GitHub License GitHub stars PyPI - License 书生·铺语大模型

0.鸣谢

感谢 上海人工智能实验室书生浦语大模型 的支持,感谢实训营提供的赞助和机会。

Search-SongJiang

1.展示(点击进入):

快速运行:

  1. 创建 .env 文件(参考 .env.example)并配置以下 API 密钥:
    • DASHSCOPE_API_KEY:通义千问VL大模型API密钥
    • BOCHA_API_KEY:博查搜索API密钥
    • AMAP_API_KEY:高德地图API密钥
    • SILICON_FLOW_API_KEY:Silicon Flow API秘钥
  2. 安装依赖:pip install -r requirements.txt
  3. 运行服务:python center/center.py

2.介绍

MultiAgent-Search是基于InternLM书生浦语大模型实现的多智能体项目,在图寻地址方面为全球首创,旨在利用多Agent识别上海市松江大学城图像,识别过程很好地模拟了人类思考图像位置的过程,以进行图像寻址,如:上海工程技术大学松江校区-图书馆等,在图像寻址功能上超越了ChatGPT4o文心一言3.5等大模型。

Search-SongJiang

3.功能展示图

61d7550e63e6facb77c8407de8ade47

4.效果对比

4.1. ChatGPT4o在图像寻址上的效果,如下图识别上海工程技术大学松江校区-图书馆:

ChatGPT4o

结论: ChatGPT4o在图像寻址上效果并不好,没有达到人类思考图像位置的能力。

4.2. 文心一言3.5在图像寻址上的效果,如下图识别上海工程技术大学松江校区-图书馆:

文心一言3.5

结论: 同理,可以发现文心一言3.5在图像寻址上效果并不好,也并没有达到人类思考图像位置的能力。

5.最终效果

903a6230f0c46df636a4a3f3cb1541e

6. 引用

@misc{Wu2024MultiAgentSearch,
    title={MultiAgent-Search: 基于多智能体识别图像位置},
    author={Yuhang Wu and Henghua Zhang},
    year={2024},
    url={<url id="cuqmhcd43355nsg2o9dg" type="url" status="parsed" title="GitHub - Wuyuhang11/MultiAgent-Search" wc="6723">https://github.com/Wuyuhang11/MultiAgent-Search</url>},
}

About

[2025-上海人工智能实验室书生实训营十佳、优秀项目]

Resources

License

Stars

Watchers

Forks

Packages

No packages published