元认知自主开发系统 — 给 AI Agent 一套"先想清楚再动手"的工作骨架
从一句自然语言目标出发,系统自主完成 上下文采集 → 任务分解 → 技能推荐 → 角色涌现 → 拓扑规划 → 协作执行 → 反思循环 → 交付验证 的完整闭环,全程实时可视化,并在每一轮迭代中自我改进。
大多数 AI 编码工具是"接一个指令、改一段代码"的反应式循环。Harness 想做的是另一件事:把"元认知"——也就是 Agent 对自己思考过程的规划、监控和修正——做成一等公民。
它不是又一个 Agent 框架,而是一层自主开发的方法论骨架:
- 会规划 — 拿到目标先做技术栈分析、任务分解(DAG)、角色涌现,而不是一上来就写代码
- 会监控 — 十个阶段每一步都有实时事件流,延迟 < 500ms 推到监控面板
- 会反思 — 每轮执行后多维度打分,不达标就调整策略重来
- 会进化 — 三层自我改进机制把成功模式和失败教训固化进记忆与 prompt
技术路线吸收了 DeepSeek-V4 的架构思想(reasoning 档位、trajectory 轨迹、结构化 rubric、GRPO 候选采样),落地为 Harness 的具体运行时机制。
WebSocket 实时推送各阶段状态、性能指标与反思循环;支持移动端自适应。
加载态:
移动端(竖屏自适应):
# 安装依赖(需要 Bun ≥ 1.3)
bun install
# 启动监控面板 + 等待 Web 界面输入目标
bun run dev serve --project ./examples/hello
# 访问 http://localhost:7890
# 或直接执行一个目标(带实时监控)
bun run dev run --goal "实现用户认证 API" --project ./my-app --monitorWindows 用户可双击 harness.bat 一键启动(含依赖检查 + demo)。
graph TD
A[输入: goal + projectRoot] --> B[1. context 上下文采集]
B --> C[2. decompose 任务分解]
C --> D[3. skill-recommend 技能推荐]
D --> E[4. emerge 角色涌现]
E --> F[5. topology 拓扑生成]
F --> G[6. execute 协作执行]
G --> H[7. reflect 反思循环]
H --> I[8. deliver 交付验证]
I --> J{质量达标?}
J -->|是| K[9. complete 完成]
J -->|否| L[策略调整] --> E
H -.失败.-> M[failed]
| 阶段 | 职责 |
|---|---|
| context | 扫描 package.json / tsconfig / requirements 等识别技术栈,分析复杂度与 Git 状态 |
| decompose | 将自然语言目标分解为可执行任务 DAG,识别依赖与并行机会 |
| skill-recommend | 基于任务需求分析所需技能组合,生成技能图谱 |
| emerge | 按任务特性动态涌现角色(而非固定流水线),分配技能集与工具链 |
| topology | 决定并行/串行、设置反思检查点、设计容错与降级策略 |
| execute | 按拓扑编排多个专业化 Agent,通过事件总线异步协作,追踪所有制品 |
| reflect | 多维度评估结果与目标达成度,优化后续策略,固化经验 |
| deliver | 对照验收标准做质量检查、集成测试、文档生成 |
| complete | 汇总成果、记录经验、清理临时状态 |
- Nudging — 每个阶段完成后自动提取经验到记忆系统
- Candidate — 历史快照因果分析,持续优化角色/拓扑策略(GRPO 风格候选采样)
- PromptEvolve — 质量评估驱动的 prompt 自进化,结构化 rubric 打分
harness/
├── apps/
│ └── cli/ # CLI 入口:命令解析与路由
├── packages/
│ ├── contracts/ # 共享类型定义(Zod schema 驱动)
│ ├── runtime/ # 核心运行时:元编排器、状态监控、安全沙箱、reviewer 集群
│ ├── monitor/ # 实时监控系统(FastAPI + WebSocket + 前端面板)
│ ├── memory/ # 记忆系统(BioMem 向量记忆集成)
│ ├── database/ # 持久化层
│ ├── meta-py/ # 内置 Python 元认知脚本(采集/分解/涌现/拓扑/反思)
│ └── lark/ # 飞书集成(可选)
├── examples/
│ └── hello/ # 最小示例项目
└── docs/ # 设计文档(v0.5 ~ v0.8 架构演进)+ 截图
安全边界:Agent 不得越过
packages/runtime/src/security/直接调用外部 API;packages/contracts/只放类型不放实现。详见AGENTS.md。
harness serve [--project <路径>] # 启动监控面板,等待目标输入
harness run --goal <目标> [--project <路径>] [--monitor]
[--max-reflections <N>] [--timeout <毫秒>] [--auto-train]
harness train [--rounds <N>] [--project <路径>] # 对抗训练
harness status [--project <路径>] # 查看任务状态
harness snapshot <项目路径> # 生成项目快照
harness doctor # 检查依赖环境| 组件 | 版本 | 用途 | 验证 |
|---|---|---|---|
| Bun | ≥ 1.3 | 运行时 + 包管理 | bun --version |
| Claude CLI | 最新 | LLM 调用(复用本地认证,零 API 成本) | claude --version |
| Python | 3.10+ | 监控服务(可选) | python --version |
| FastAPI | — | 监控 Web 界面(可选) | pip install fastapi "uvicorn[standard]" websockets |
运行 harness doctor 可一键检查环境。
bun test # 1000+ 测试用例(71 个测试文件,覆盖 runtime/security/contracts 等)
bun run type-check # TypeScript 严格模式类型检查
bun run build # tsc -b 构建代码规范:用户可见文本一律中文;TypeScript 严格模式,导出函数必须有类型定义。
| 版本 | 关键里程碑 |
|---|---|
| V0.5 | Guardrail Evolver、Review Agent 集群、Workspace 隔离、人工干预计数、AGENTS.md + 结构化测试 |
| V0.6 | Workspace 状态机、Sandbox Gate 安全门 |
| V0.7 | DeepSeek-V4 架构落地:reasoning 档位 + trajectory 轨迹 + 结构化 rubric + GRPO 候选采样;十阶段元认知流程成型 |
| V0.8 | CDP 浏览器验证、Runtime Invariants(SLO 硬指标)、Ralph Loop、文档自动养护、Lint 提示、CLI 安全硬化 |
| V0.9 | 细粒度 Rollback(per-role worktree reset)、Aletheia 反向验证(跨厂商 challenge)、Reviewer 三态 gate + uncertaintyItems、LLM 全局 semaphore + 熔断 + retry budget、复杂度分类器 |
| V0.95 | ECC 五模块移植(AgentShield / Hooks / Instinct / Compactor / Eval) |
| V0.98 | 首次开源版本 — 清理个人数据与运行产物,统一版本,完善文档 |
MIT © 2026 nieao
欢迎 Issue 与 PR:github.com/nieao/harness
提交流程:Fork → 功能分支 → 提交(中文 commit,聚焦 why)→ PR。




