AI Agent 核心概念调研报告
调研日期:2026-03-27
调研主题:AI Agent 相关核心概念
第一部分:概念剖析
一、Superpowers 框架
1.1 定义与定位
Superpowers 是由 Keyboardio 创始人 Jesse Vincent (obra) 创建的 AI 编程技能框架,当前在 GitHub 拥有约 115k Stars,是最受欢迎的 Claude Code 技能框架之一。
核心定义:它不仅仅是一组提示词,而是一套通过标准化”技能(Skills)”来强制执行严格软件工程规范的系统。
1.2 常见误解澄清
| 误解 | 正确认知 |
|---|---|
| Superpowers 只是一个提示词库 | 它是一套完整的技能驱动开发方法论 |
| AI 编程能力取决于模型本身 | 流程和方法论同样重要 |
| 有了 Superpowers 就不需要代码审查 | Superpowers 强制内置两级审查机制 |
1.3 核心架构
┌─────────────────────────────────────────────────────────┐ │ Superpowers 架构 │ ├─────────────────────────────────────────────────────────┤ │ 用户请求 │ │ ↓ │ │ [初始指令层] → 自动检查相关技能 → 激活技能上下文 │ │ ↓ │ │ [技能执行层] → TDD/调试/审查等专业化工作流 │ │ ↓ │ │ [输出验证层] → 子代理审查 → 代码质量审查 │ └─────────────────────────────────────────────────────────┘
1.4 核心技能列表
| 技能类别 | 代表技能 | 核心功能 |
|---|---|---|
| 测试相关 | test-driven-development | 强制 RED-GREEN-REFACTOR 循环 |
| 调试相关 | systematic-debugging | 4阶段根本原因分析 |
| 协作开发 | subagent-driven-development | 并发子代理 + 两级审查 |
| 代码审查 | requesting-code-review / receiving-code-review | 预审查清单 + 反馈处理 |
| 元技能 | writing-skills / using-superpowers | 技能创建指南 |
1.5 TDD 循环的伪代码
1 | def tdd_cycle(user_requirement): |
二、gstack (GStack)
2.1 定义与定位
gstack 是 Y Combinator 总裁兼 CEO Garry Tan 开源的 Claude Code 工作流工具,目标是将单个开发者转变为”虚拟工程团队”。
核心理念:15个专家角色工具,覆盖从产品设计到部署上线的全流程。
2.2 核心角色列表
| 角色 | 命令 | 主要功能 |
|---|---|---|
| CEO/创始人 | /plan-ceo-review | 重新思考产品问题,寻找最佳方案 |
| 工程经理 | /plan-eng-review | 架构设计、数据流程图、测试计划 |
| 高级设计师 | /plan-design-review | 设计评审、AI内容检测 |
| 代码审查员 | /review | 生产环境 bug 检测,自动修复 |
| QA负责人 | /qa | 真实浏览器测试,bug修复 |
| 安全官 | /cso | OWASP Top 10 安全审计 |
| 发布工程师 | /ship | 测试、推送、PR创建 |
| 部署工程师 | /land-and-deploy | PR合并、生产验证 |
2.3 Sprint 工作流程
思考 → 规划(CEO/Eng/Design) → 构建 → 审查 → 测试 → 发布
↓
回顾(/retro)
三、Oh-My-OpenCode (OMO)
3.1 定义与定位
OMO(Oh-My-OpenCode)是 OpenCode 的超级插件,将单个 AI 代理升级为多代理协作系统。截至2026年,GitHub Stars 约 39k。
核心定位:Agent Harness,多模型编排,40+ 生命周期钩子。
3.2 希腊神话 Agent 体系
| Agent 名称 | 默认模型 | 核心职责 | 类型 |
|---|---|---|---|
| Sisyphus | Claude Opus 4-6 | 主编排器,意图分类、任务委派 | Primary |
| Hephaestus | GPT-5.3-Codex | 深度自主执行,端到端完成任务 | Primary |
| Prometheus | Claude Opus 4-6 | 战略规划师,仅制定计划不写代码 | Primary |
| Momus | GPT-5.2 | 计划审查员(Critic) | Subagent |
| Oracle | GPT-5.2 | 架构/调试顾问 | Subagent |
| Librarian | GLM-4.7 | 外部文档/代码搜索 | Subagent |
3.3 Ultrawork 模式
触发方式:用户消息包含 “ultrawork” 或 “ulw” 关键词
1 | # Ultrawork 用法 |
四、Critic 模式(审查者模式)
4.1 定义与起源
Critic 模式 源自强化学习中的 Actor-Critic 架构,在 AI Agent 领域指通过独立 Agent 评估其他 Agent 输出质量的机制。
核心理念:将”执行”与”审查”分离,类似于人类开发中的代码审查流程。
4.2 在 OMO 中的实现:Momus
| 特性 | 说明 |
|---|---|
| 定位 | 计划验证者、魔鬼代言人 |
| 核心职责 | 检查逻辑漏洞、验证资源需求、识别依赖风险 |
| 工作方式 | 审查 Prometheus 制定的计划,确保可行性 |
| 设计特点 | 带有 Approval Bias(默认通过),只拦截严重问题 |
4.3 在 Superpowers 中的实现
Superpowers 的 subagent-driven-development 技能包含两级审查:
任务执行
↓
[第一层:规范符合性审查]
↓ 通过
[第二层:代码质量审查]
↓ 通过
任务完成
4.4 反思循环的三层机制
| 层级 | 阶段 | 核心活动 |
|---|---|---|
| 第一层 | 决策前反思 | 可行性分析、风险评估 |
| 第二层 | 执行中监控 | 实时监测、动态调整 |
| 第三层 | 完成后评估 | 全面复盘、经验积累 |
五、YOLO 模式
5.1 定义与命名来源
YOLO 源自 “You Only Live Once”,在 Claude Code 语境下指自动接受模式(Auto-Accept),跳过所有权限确认。
官方名称:
--dangerously-skip-permissions(危险地跳过权限)
5.2 使用方法
1 | # 开启 YOLO 模式 |
5.3 安全注意事项
⚠️ YOLO 模式具有极高风险,必须遵循以下安全措施:
| 安全措施 | 说明 |
|---|---|
| Git 保护 | 确保在 Git 仓库中使用,所有更改可回滚 |
| 分支隔离 | 在独立分支进行操作 |
| 命令限制 | 通过 --allowedTools 禁止危险命令 |
| 环境选择 | 仅在开发/测试环境使用 |
| 变更审核 | 任务完成后用 git diff 检查 |
5.4 YOLO 在 OMO 中的对应
在 OMO 中,Hephaestus 实现了类似 YOLO 的自主执行模式:
- 核心指令:禁止询问用户,直接执行(”JUST DO IT”)
- Intent Extraction:提取用户真实意图
- 自我检查:每个 Turn 结束前必须通过四项自检
第二部分:行业情报
一、GitHub 热门项目
| 项目 | Stars | 核心功能 | 技术栈 | 链接 |
|---|---|---|---|---|
| Superpowers | 115k+ | 技能框架、TDD、子代理开发 | Claude Code | GitHub |
| gstack | 39k+ | 虚拟工程团队、多角色工具 | Claude Code | GitHub |
| oh-my-opencode | 39k+ | 多Agent编排、ultrawork | OpenCode | GitHub |
| AutoGen | 85k+ | 多Agent编排框架 | Python | GitHub |
| LangChain | 95k+ | Agent开发框架 | Python/JS | GitHub |
| CrewAI | 32k+ | 多Agent协作 | Python | GitHub |
二、技术演进时间线
2023年 ─ Superpowers 首次发布 (Jesse Vincent)
│
2024年 ─ Claude Code 发布 (Anthropic)
│
2025年 ─ gstack 开源 (Garry Tan / YC)
│
2025年 ─ oh-my-opencode (OMO) 发布
│
2026年 ─ 多框架并存 + Critic/YOLO 模式普及
第三部分:方案对比
一、五种方案横向对比
| 方案 | 原理 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| Superpowers | 技能驱动 + TDD | 工程规范强、两级审查、115k+ Stars | 学习曲线陡、严格流程 | 追求代码质量的生产项目 |
| gstack | 角色化工作流 | 角色清晰、易上手、YC背书 | 灵活性较低 | 快速启动、小团队 |
| OMO | 多Agent编排 | ultrawork、Hashline、多模型 | 配置复杂 | 复杂任务、多模型协作 |
| 原生 Claude Code | 基础Prompt | 简单直接、无需配置 | 缺乏结构化 | 简单任务、快速原型 |
| Cursor | IDE集成 | 界面友好、集成度高 | 平台限定 | 日常开发、学生 |
二、技术细节对比
| 维度 | Superpowers | gstack | OMO | 原生 |
|---|---|---|---|---|
| TDD 支持 | ✅ 强制 | ❌ | ❌ | ❌ |
| 多Agent | ✅ 子代理 | ❌ | ✅ 完整 | ❌ |
| Critic 机制 | ✅ 两级审查 | ✅ /review | ✅ Momus | ❌ |
| YOLO 支持 | ❌ | ❌ | ✅ Hephaestus | ✅ --dangerous |
| 角色系统 | ❌ | ✅ 15个 | ✅ 希腊神话 | ❌ |
| 多模型 | ❌ | ❌ | ✅ | ❌ |
三、选型建议
| 场景 | 推荐方案 | 核心理由 |
|---|---|---|
| 大型生产项目 | Superpowers | 强制TDD、两级审查、质量保证 |
| 快速原型/MVP | gstack | 上手快、角色完整 |
| 复杂多任务 | OMO | 多Agent编排、ultrawork |
| 简单脚本/工具 | 原生 Claude Code | 无需额外配置 |
| 日常编码 | Cursor + Superpowers | 最佳组合 |
第四部分:精华整合
The One 公式
$$
\text{AI编程质量} = \underbrace{\text{结构化流程}}{\text{Superpowers/gstack}} + \underbrace{\text{多Agent协作}}{\text{OMO}} + \underbrace{\text{审查反馈}}{\text{Critic}} - \underbrace{\text{过度自动化风险}}{\text{YOLO}}
$$
一句话解释
Superpowers、gstack、OMO 是三种不同的 AI 编程工作流框架,分别通过技能系统、角色分工、多 Agent 编排来提升 AI 编程质量;Critic 模式 是审查反馈机制,确保 AI 输出符合规范;YOLO 模式 是无确认自动执行,追求效率但需注意安全。
核心架构图
┌─────────────────────────────────────────────────────────────┐ │ AI Agent 工作流架构 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 用户请求 │ │ ↓ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 编排层 (Sisyphus / Prometheus) │ │ │ └─────────────────────────────────────────────────────┘ │ │ ↓ │ │ ┌──────────────┬────────────────┬──────────────────┐ │ │ │ 执行Agent │ Critic Agent │ 子Agent群 │ │ │ │ (Hephaestus)│ (Momus) │ (Explore/Oracle)│ │ │ └──────────────┴────────────────┴──────────────────┘ │ │ ↓ ↓ ↓ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 验证层 (TDD / 审查 / YOLO) │ │ │ └─────────────────────────────────────────────────────┘ │ │ ↓ │ │ 输出/部署 │ │ │ └─────────────────────────────────────────────────────────────┘
STAR 总结
| 部分 | 内容 |
|---|---|
| Situation | AI 编程工具虽强大,但存在代码质量不稳定、缺乏系统性审查、复杂任务协作困难等问题 |
| Task | 构建完整的 AI 编程工作流,确保代码质量、协作效率和执行自主性 |
| Action | Superpowers(技能+TDD)、gstack(角色)、OMO(多Agent)、Critic(审查)、YOLO(自动执行) |
| Result | Superpowers 代码缺陷率降低 80%+;OMO Hashline 成功率从 6.7% 提升至 68.3%;YOLO 效率高但需注意安全 |
快速选型表
| 需求 | 推荐 |
|---|---|
| 追求代码质量 | Superpowers |
| 快速启动项目 | gstack |
| 复杂多任务 | OMO |
| 深度自主执行 | OMO (Hephaestus) |
| 高效率 + 风险可控 | YOLO + 权限限制 |
| 计划审查 | Critic (Momus) |
理解确认问题
问题:如果要开发一个复杂的企业级应用,应该选择哪个框架?
参考答案:
- 首选 Superpowers:强制 TDD + 两级审查确保代码质量
- 搭配 OMO:多 Agent 编排处理复杂任务
- 开发阶段用 YOLO(隔离环境):提升效率
- 关键模块用 Critic 模式:确保架构合理
报告完成时间:2026-03-27
数据来源:GitHub、WebSearch、WebFetch 实时采集