AI Agent 核心概念调研报告

调研日期:2026-03-27
调研主题:AI Agent 相关核心概念


第一部分:概念剖析

一、Superpowers 框架

1.1 定义与定位

Superpowers 是由 Keyboardio 创始人 Jesse Vincent (obra) 创建的 AI 编程技能框架,当前在 GitHub 拥有约 115k Stars,是最受欢迎的 Claude Code 技能框架之一。

核心定义:它不仅仅是一组提示词,而是一套通过标准化”技能(Skills)”来强制执行严格软件工程规范的系统。

1.2 常见误解澄清

误解正确认知
Superpowers 只是一个提示词库它是一套完整的技能驱动开发方法论
AI 编程能力取决于模型本身流程和方法论同样重要
有了 Superpowers 就不需要代码审查Superpowers 强制内置两级审查机制

1.3 核心架构

┌─────────────────────────────────────────────────────────┐
│                    Superpowers 架构                      │
├─────────────────────────────────────────────────────────┤
│  用户请求                                               │
│      ↓                                                  │
│  [初始指令层] → 自动检查相关技能 → 激活技能上下文       │
│      ↓                                                  │
│  [技能执行层] → TDD/调试/审查等专业化工作流              │
│      ↓                                                  │
│  [输出验证层] → 子代理审查 → 代码质量审查               │
└─────────────────────────────────────────────────────────┘

1.4 核心技能列表

技能类别代表技能核心功能
测试相关test-driven-development强制 RED-GREEN-REFACTOR 循环
调试相关systematic-debugging4阶段根本原因分析
协作开发subagent-driven-development并发子代理 + 两级审查
代码审查requesting-code-review / receiving-code-review预审查清单 + 反馈处理
元技能writing-skills / using-superpowers技能创建指南

1.5 TDD 循环的伪代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
def tdd_cycle(user_requirement):
# Step 1: RED - 编写失败测试
failing_test = write_failing_test(user_requirement)
run_test(failing_test) # 必须失败

# Step 2: GREEN - 编写最小代码通过测试
minimal_code = write_minimal_code(failing_test)
run_test(failing_test) # 必须通过

# Step 3: REFACTOR - 重构优化
refactored_code = refactor(minimal_code)
run_all_tests() # 确保不破坏已有功能

return refactored_code

二、gstack (GStack)

2.1 定义与定位

gstack 是 Y Combinator 总裁兼 CEO Garry Tan 开源的 Claude Code 工作流工具,目标是将单个开发者转变为”虚拟工程团队”

核心理念:15个专家角色工具,覆盖从产品设计到部署上线的全流程。

2.2 核心角色列表

角色命令主要功能
CEO/创始人/plan-ceo-review重新思考产品问题,寻找最佳方案
工程经理/plan-eng-review架构设计、数据流程图、测试计划
高级设计师/plan-design-review设计评审、AI内容检测
代码审查员/review生产环境 bug 检测,自动修复
QA负责人/qa真实浏览器测试,bug修复
安全官/csoOWASP Top 10 安全审计
发布工程师/ship测试、推送、PR创建
部署工程师/land-and-deployPR合并、生产验证

2.3 Sprint 工作流程

思考 → 规划(CEO/Eng/Design) → 构建 → 审查 → 测试 → 发布
    ↓
回顾(/retro)

三、Oh-My-OpenCode (OMO)

3.1 定义与定位

OMO(Oh-My-OpenCode)是 OpenCode 的超级插件,将单个 AI 代理升级为多代理协作系统。截至2026年,GitHub Stars 约 39k

核心定位:Agent Harness,多模型编排,40+ 生命周期钩子。

3.2 希腊神话 Agent 体系

Agent 名称默认模型核心职责类型
SisyphusClaude Opus 4-6主编排器,意图分类、任务委派Primary
HephaestusGPT-5.3-Codex深度自主执行,端到端完成任务Primary
PrometheusClaude Opus 4-6战略规划师,仅制定计划不写代码Primary
MomusGPT-5.2计划审查员(Critic)Subagent
OracleGPT-5.2架构/调试顾问Subagent
LibrarianGLM-4.7外部文档/代码搜索Subagent

3.3 Ultrawork 模式

触发方式:用户消息包含 “ultrawork” 或 “ulw” 关键词

1
2
3
# Ultrawork 用法
opencode
ultrawork 重构整个用户认证系统

四、Critic 模式(审查者模式)

4.1 定义与起源

Critic 模式 源自强化学习中的 Actor-Critic 架构,在 AI Agent 领域指通过独立 Agent 评估其他 Agent 输出质量的机制

核心理念:将”执行”与”审查”分离,类似于人类开发中的代码审查流程。

4.2 在 OMO 中的实现:Momus

特性说明
定位计划验证者、魔鬼代言人
核心职责检查逻辑漏洞、验证资源需求、识别依赖风险
工作方式审查 Prometheus 制定的计划,确保可行性
设计特点带有 Approval Bias(默认通过),只拦截严重问题

4.3 在 Superpowers 中的实现

Superpowers 的 subagent-driven-development 技能包含两级审查

任务执行
    ↓
[第一层:规范符合性审查]
    ↓ 通过
[第二层:代码质量审查]
    ↓ 通过
任务完成

4.4 反思循环的三层机制

层级阶段核心活动
第一层决策前反思可行性分析、风险评估
第二层执行中监控实时监测、动态调整
第三层完成后评估全面复盘、经验积累

五、YOLO 模式

5.1 定义与命名来源

YOLO 源自 “You Only Live Once”,在 Claude Code 语境下指自动接受模式(Auto-Accept),跳过所有权限确认。

官方名称--dangerously-skip-permissions(危险地跳过权限)

5.2 使用方法

1
2
3
4
5
# 开启 YOLO 模式
claude --dangerously-skip-permissions

# 带权限限制的 YOLO 模式
claude --dangerously-skip-permissions --allowedTools "Read,Write,Edit,Glob,Grep"

5.3 安全注意事项

⚠️ YOLO 模式具有极高风险,必须遵循以下安全措施:

安全措施说明
Git 保护确保在 Git 仓库中使用,所有更改可回滚
分支隔离在独立分支进行操作
命令限制通过 --allowedTools 禁止危险命令
环境选择仅在开发/测试环境使用
变更审核任务完成后用 git diff 检查

5.4 YOLO 在 OMO 中的对应

在 OMO 中,Hephaestus 实现了类似 YOLO 的自主执行模式:

  • 核心指令:禁止询问用户,直接执行(”JUST DO IT”)
  • Intent Extraction:提取用户真实意图
  • 自我检查:每个 Turn 结束前必须通过四项自检

第二部分:行业情报

一、GitHub 热门项目

项目Stars核心功能技术栈链接
Superpowers115k+技能框架、TDD、子代理开发Claude CodeGitHub
gstack39k+虚拟工程团队、多角色工具Claude CodeGitHub
oh-my-opencode39k+多Agent编排、ultraworkOpenCodeGitHub
AutoGen85k+多Agent编排框架PythonGitHub
LangChain95k+Agent开发框架Python/JSGitHub
CrewAI32k+多Agent协作PythonGitHub

二、技术演进时间线

2023年 ─ Superpowers 首次发布 (Jesse Vincent)
    │
2024年 ─ Claude Code 发布 (Anthropic)
    │
2025年 ─ gstack 开源 (Garry Tan / YC)
    │
2025年 ─ oh-my-opencode (OMO) 发布
    │
2026年 ─ 多框架并存 + Critic/YOLO 模式普及

第三部分:方案对比

一、五种方案横向对比

方案原理优点缺点适用场景
Superpowers技能驱动 + TDD工程规范强、两级审查、115k+ Stars学习曲线陡、严格流程追求代码质量的生产项目
gstack角色化工作流角色清晰、易上手、YC背书灵活性较低快速启动、小团队
OMO多Agent编排ultrawork、Hashline、多模型配置复杂复杂任务、多模型协作
原生 Claude Code基础Prompt简单直接、无需配置缺乏结构化简单任务、快速原型
CursorIDE集成界面友好、集成度高平台限定日常开发、学生

二、技术细节对比

维度SuperpowersgstackOMO原生
TDD 支持✅ 强制
多Agent✅ 子代理✅ 完整
Critic 机制✅ 两级审查✅ /review✅ Momus
YOLO 支持✅ Hephaestus✅ --dangerous
角色系统✅ 15个✅ 希腊神话
多模型

三、选型建议

场景推荐方案核心理由
大型生产项目Superpowers强制TDD、两级审查、质量保证
快速原型/MVPgstack上手快、角色完整
复杂多任务OMO多Agent编排、ultrawork
简单脚本/工具原生 Claude Code无需额外配置
日常编码Cursor + Superpowers最佳组合

第四部分:精华整合

The One 公式

$$
\text{AI编程质量} = \underbrace{\text{结构化流程}}{\text{Superpowers/gstack}} + \underbrace{\text{多Agent协作}}{\text{OMO}} + \underbrace{\text{审查反馈}}{\text{Critic}} - \underbrace{\text{过度自动化风险}}{\text{YOLO}}
$$

一句话解释

Superpowers、gstack、OMO 是三种不同的 AI 编程工作流框架,分别通过技能系统、角色分工、多 Agent 编排来提升 AI 编程质量;Critic 模式 是审查反馈机制,确保 AI 输出符合规范;YOLO 模式 是无确认自动执行,追求效率但需注意安全。

核心架构图

┌─────────────────────────────────────────────────────────────┐
│                    AI Agent 工作流架构                        │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   用户请求                                                   │
│       ↓                                                     │
│   ┌─────────────────────────────────────────────────────┐   │
│   │              编排层 (Sisyphus / Prometheus)          │   │
│   └─────────────────────────────────────────────────────┘   │
│       ↓                                                     │
│   ┌──────────────┬────────────────┬──────────────────┐     │
│   │ 执行Agent    │  Critic Agent  │  子Agent群       │     │
│   │ (Hephaestus)│  (Momus)       │  (Explore/Oracle)│     │
│   └──────────────┴────────────────┴──────────────────┘     │
│       ↓           ↓                ↓                         │
│   ┌─────────────────────────────────────────────────────┐   │
│   │              验证层 (TDD / 审查 / YOLO)              │   │
│   └─────────────────────────────────────────────────────┘   │
│       ↓                                                     │
│   输出/部署                                                 │
│                                                             │
└─────────────────────────────────────────────────────────────┘

STAR 总结

部分内容
SituationAI 编程工具虽强大,但存在代码质量不稳定、缺乏系统性审查、复杂任务协作困难等问题
Task构建完整的 AI 编程工作流,确保代码质量、协作效率和执行自主性
ActionSuperpowers(技能+TDD)、gstack(角色)、OMO(多Agent)、Critic(审查)、YOLO(自动执行)
ResultSuperpowers 代码缺陷率降低 80%+;OMO Hashline 成功率从 6.7% 提升至 68.3%;YOLO 效率高但需注意安全

快速选型表

需求推荐
追求代码质量Superpowers
快速启动项目gstack
复杂多任务OMO
深度自主执行OMO (Hephaestus)
高效率 + 风险可控YOLO + 权限限制
计划审查Critic (Momus)

理解确认问题

问题:如果要开发一个复杂的企业级应用,应该选择哪个框架?

参考答案

  1. 首选 Superpowers:强制 TDD + 两级审查确保代码质量
  2. 搭配 OMO:多 Agent 编排处理复杂任务
  3. 开发阶段用 YOLO(隔离环境):提升效率
  4. 关键模块用 Critic 模式:确保架构合理

报告完成时间:2026-03-27
数据来源:GitHub、WebSearch、WebFetch 实时采集