Add AutoGLM agent implementation and update agent registry #27

xiaofeifei218 · 2026-01-26T22:42:03Z

本次提交为 MobileWorld 评估框架集成了 AutoGLM-Phone VLM 智能体实现,并更新了智能体注册表。
主要变更:

功能: 实现了 AutoGLM-Phone 视觉语言模型的适配器,将 AutoGLM 原生输出格式转换为 MobileWorld 的 JSONAction 格式
核心组件:
- AutoGLMAgentMCP 类:继承自 MCPAgent,提供完整的智能体实现
- get_autoglm_system_prompt(): 生成包含当前日期的 AutoGLM 中文系统提示词
- parse_autoglm_response(): 解析模型响应,分离推理(thinking)和动作(action)部分
- parse_autoglm_action(): 解析动作字符串为字典格式
- convert_autoglm_to_jsonaction(): 将 AutoGLM 动作格式转换为 MobileWorld JSONAction 格式
支持的操作类型:
- 基础操作: Launch(启动应用)、Tap(点击)、Type(输入文本)、Type_Name(输入人名)
- 手势操作: Swipe(滑动)、Long Press(长按)、Double Tap(双击)
- 导航操作: Back(返回)、Home(回到主屏幕)
- 特殊操作: Interact(用户交互)、Take_over(接管)、Wait(等待)、Note(记录)、Call_API(调用API)
- 完成操作: finish(结束任务)

测试中的已知问题

AutoGLM-Phone 模型的最大上下文长度：25,480 tokens,较长历史信息的情况下会因Token 超出上下文长度限制报错
AutoGLM-Phone 模型有一定风控行为,涉及淘店这个模拟淘宝的app任务时会触发系统风控(message:系统检测到输入或生成内容可能包含不安全或敏感内容，请您避免输入易产生敏感内容的提示语，感谢您的配合。)

测试结果(不含mcp任务)

"overall_success_rate": 0.02531645569620253,

"total_duration_seconds": 587.9265477657318

Add AutoGLM agent implementation and update agent registry

12ec92a

xiaofeifei218 mentioned this pull request Jan 26, 2026

Request to Add AutoGLM-Phone-9B Implementation and Comparison #26

Open

Merge branch 'Tongyi-MAI:main' into main

e6652a3

Provide feedback