Skip to content

nieao/harness

Repository files navigation

Harness V0.98

元认知自主开发系统 — 给 AI Agent 一套"先想清楚再动手"的工作骨架

从一句自然语言目标出发,系统自主完成 上下文采集 → 任务分解 → 技能推荐 → 角色涌现 → 拓扑规划 → 协作执行 → 反思循环 → 交付验证 的完整闭环,全程实时可视化,并在每一轮迭代中自我改进。

version runtime license tests


这是什么

大多数 AI 编码工具是"接一个指令、改一段代码"的反应式循环。Harness 想做的是另一件事:把"元认知"——也就是 Agent 对自己思考过程的规划、监控和修正——做成一等公民。

它不是又一个 Agent 框架,而是一层自主开发的方法论骨架

  • 会规划 — 拿到目标先做技术栈分析、任务分解(DAG)、角色涌现,而不是一上来就写代码
  • 会监控 — 十个阶段每一步都有实时事件流,延迟 < 500ms 推到监控面板
  • 会反思 — 每轮执行后多维度打分,不达标就调整策略重来
  • 会进化 — 三层自我改进机制把成功模式和失败教训固化进记忆与 prompt

技术路线吸收了 DeepSeek-V4 的架构思想(reasoning 档位、trajectory 轨迹、结构化 rubric、GRPO 候选采样),落地为 Harness 的具体运行时机制。


截图

实时监控面板(建筑极简风 · 十阶段管道可视化)

监控面板 - 桌面

WebSocket 实时推送各阶段状态、性能指标与反思循环;支持移动端自适应。

加载态:

加载态

移动端(竖屏自适应):

移动端

系统解剖图(核心机制拆解)

架构解剖 - 封面

架构解剖 - 节点拓扑


快速开始

# 安装依赖(需要 Bun ≥ 1.3)
bun install

# 启动监控面板 + 等待 Web 界面输入目标
bun run dev serve --project ./examples/hello
# 访问 http://localhost:7890

# 或直接执行一个目标(带实时监控)
bun run dev run --goal "实现用户认证 API" --project ./my-app --monitor

Windows 用户可双击 harness.bat 一键启动(含依赖检查 + demo)。


元认知十阶段

graph TD
    A[输入: goal + projectRoot] --> B[1. context 上下文采集]
    B --> C[2. decompose 任务分解]
    C --> D[3. skill-recommend 技能推荐]
    D --> E[4. emerge 角色涌现]
    E --> F[5. topology 拓扑生成]
    F --> G[6. execute 协作执行]
    G --> H[7. reflect 反思循环]
    H --> I[8. deliver 交付验证]
    I --> J{质量达标?}
    J -->|是| K[9. complete 完成]
    J -->|否| L[策略调整] --> E
    H -.失败.-> M[failed]
Loading
阶段 职责
context 扫描 package.json / tsconfig / requirements 等识别技术栈,分析复杂度与 Git 状态
decompose 将自然语言目标分解为可执行任务 DAG,识别依赖与并行机会
skill-recommend 基于任务需求分析所需技能组合,生成技能图谱
emerge 按任务特性动态涌现角色(而非固定流水线),分配技能集与工具链
topology 决定并行/串行、设置反思检查点、设计容错与降级策略
execute 按拓扑编排多个专业化 Agent,通过事件总线异步协作,追踪所有制品
reflect 多维度评估结果与目标达成度,优化后续策略,固化经验
deliver 对照验收标准做质量检查、集成测试、文档生成
complete 汇总成果、记录经验、清理临时状态

三层自我改进

  • Nudging — 每个阶段完成后自动提取经验到记忆系统
  • Candidate — 历史快照因果分析,持续优化角色/拓扑策略(GRPO 风格候选采样)
  • PromptEvolve — 质量评估驱动的 prompt 自进化,结构化 rubric 打分

项目架构

harness/
├── apps/
│   └── cli/                  # CLI 入口:命令解析与路由
├── packages/
│   ├── contracts/            # 共享类型定义(Zod schema 驱动)
│   ├── runtime/              # 核心运行时:元编排器、状态监控、安全沙箱、reviewer 集群
│   ├── monitor/              # 实时监控系统(FastAPI + WebSocket + 前端面板)
│   ├── memory/               # 记忆系统(BioMem 向量记忆集成)
│   ├── database/             # 持久化层
│   ├── meta-py/              # 内置 Python 元认知脚本(采集/分解/涌现/拓扑/反思)
│   └── lark/                 # 飞书集成(可选)
├── examples/
│   └── hello/                # 最小示例项目
└── docs/                     # 设计文档(v0.5 ~ v0.8 架构演进)+ 截图

安全边界:Agent 不得越过 packages/runtime/src/security/ 直接调用外部 API;packages/contracts/ 只放类型不放实现。详见 AGENTS.md


命令参考

harness serve   [--project <路径>]                        # 启动监控面板,等待目标输入
harness run     --goal <目标> [--project <路径>] [--monitor]
                [--max-reflections <N>] [--timeout <毫秒>] [--auto-train]
harness train   [--rounds <N>] [--project <路径>]          # 对抗训练
harness status  [--project <路径>]                         # 查看任务状态
harness snapshot <项目路径>                                # 生成项目快照
harness doctor                                            # 检查依赖环境

依赖要求

组件 版本 用途 验证
Bun ≥ 1.3 运行时 + 包管理 bun --version
Claude CLI 最新 LLM 调用(复用本地认证,零 API 成本) claude --version
Python 3.10+ 监控服务(可选) python --version
FastAPI 监控 Web 界面(可选) pip install fastapi "uvicorn[standard]" websockets

运行 harness doctor 可一键检查环境。


开发

bun test            # 1000+ 测试用例(71 个测试文件,覆盖 runtime/security/contracts 等)
bun run type-check  # TypeScript 严格模式类型检查
bun run build       # tsc -b 构建

代码规范:用户可见文本一律中文;TypeScript 严格模式,导出函数必须有类型定义。


版本演进

版本 关键里程碑
V0.5 Guardrail Evolver、Review Agent 集群、Workspace 隔离、人工干预计数、AGENTS.md + 结构化测试
V0.6 Workspace 状态机、Sandbox Gate 安全门
V0.7 DeepSeek-V4 架构落地:reasoning 档位 + trajectory 轨迹 + 结构化 rubric + GRPO 候选采样;十阶段元认知流程成型
V0.8 CDP 浏览器验证、Runtime Invariants(SLO 硬指标)、Ralph Loop、文档自动养护、Lint 提示、CLI 安全硬化
V0.9 细粒度 Rollback(per-role worktree reset)、Aletheia 反向验证(跨厂商 challenge)、Reviewer 三态 gate + uncertaintyItems、LLM 全局 semaphore + 熔断 + retry budget、复杂度分类器
V0.95 ECC 五模块移植(AgentShield / Hooks / Instinct / Compactor / Eval)
V0.98 首次开源版本 — 清理个人数据与运行产物,统一版本,完善文档

许可证

MIT © 2026 nieao

贡献

欢迎 Issue 与 PR:github.com/nieao/harness

提交流程:Fork → 功能分支 → 提交(中文 commit,聚焦 why)→ PR。

About

Harness — 元认知自主开发系统:十阶段元认知流程 + 三层自我改进 + 实时监控可视化

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors