Skip to content

Conversation

@xiaofeifei218
Copy link

本次提交为 MobileWorld 评估框架集成了 AutoGLM-Phone VLM 智能体实现,并更新了智能体注册表。
主要变更:

  1. 新增 AutoGLM Agent 实现 (autoglm_agent.py)
  • 功能: 实现了 AutoGLM-Phone 视觉语言模型的适配器,将 AutoGLM 原生输出格式转换为 MobileWorld 的 JSONAction 格式
  • 核心组件:
    • AutoGLMAgentMCP 类:继承自 MCPAgent,提供完整的智能体实现
    • get_autoglm_system_prompt(): 生成包含当前日期的 AutoGLM 中文系统提示词
    • parse_autoglm_response(): 解析模型响应,分离推理(thinking)和动作(action)部分
    • parse_autoglm_action(): 解析动作字符串为字典格式
    • convert_autoglm_to_jsonaction(): 将 AutoGLM 动作格式转换为 MobileWorld JSONAction 格式
  • 支持的操作类型:
    • 基础操作: Launch(启动应用)、Tap(点击)、Type(输入文本)、Type_Name(输入人名)
    • 手势操作: Swipe(滑动)、Long Press(长按)、Double Tap(双击)
    • 导航操作: Back(返回)、Home(回到主屏幕)
    • 特殊操作: Interact(用户交互)、Take_over(接管)、Wait(等待)、Note(记录)、Call_API(调用API)
    • 完成操作: finish(结束任务)
  1. 更新智能体注册表 (registry.py)
  • 导入 AutoGLMAgentMCP 类
  • 在 AGENT_CONFIGS 字典中注册 "autoglm" 配置项
  • 使新智能体可通过框架统一接口调用

测试中的已知问题

  1. AutoGLM-Phone 模型的最大上下文长度:25,480 tokens,较长历史信息的情况下会因Token 超出上下文长度限制报错
  2. AutoGLM-Phone 模型有一定风控行为,涉及淘店这个模拟淘宝的app任务时会触发系统风控(message:系统检测到输入或生成内容可能包含不安全或敏感内容,请您避免输入易产生敏感内容的提示语,感谢您的配合。)

测试结果(不含mcp任务)

  • "total_tasks_assigned": 161,
    
  • "total_tasks_with_results": 158,
    
  • "successful_tasks": 4,
    
  • "total_tasks_with_no_results": 3,
    
  • "overall_success_rate": 0.02531645569620253,
    
  • "total_duration_seconds": 587.9265477657318
    

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant