GEI · 全自动完成客户需求

定位 · positioning

GEI 到底是个什么东西

GEI 是一个把客户需求
自动变成可交付 AI Agent 的质量工程系统。

你可以把 GEI 想成一个"AI Agent 的代工厂"。输入是原始需求材料——会议纪要、产品文档、设计稿、聊天记录——输出是可以直接投入使用的 AI Agent:它含多个协作 Skill、配套知识库、人格设定(SOUL.md)、以及覆盖每个 Skill 的质量报告。你不需要写 prompt 工程模板,也不需要手工定义 skill 结构,GEI 在四阶段流水线里把这些事情做完。

三个常见误解要先澄清:

容易误认为

实际上是

聊天机器人

能从需求开始、产出多个协作 Skill 的完整 agent 工厂

一次性代码生成器

有四阶段工程流程 + 质量评分 + 记忆留痕的闭环系统

Prompt 模板工厂

生成可执行的 Skill 体系 + 自带评估 + 可进化

Evidence · 已交付

它交付过什么 —— 真实数据

下表是 GEI 跑过的 6 个真实客户项目加 GEI 自身的一次 meta-run。客户名称做匿名化处理; 所有分数由 Phase C 的 gei-evaluate 自动产生,不是自评。

交付清单 · Delivery Log n = 7

项目(匿名)	行业	Skill 数	评分	Phase D 轮次	备注
消费电子品牌 · LINE 客服 AIconversational + webapp	日本消费电子	17	100.00	60 轮	SPEC-v13 完成, 含完整 WebApp
SaaS CRM · 销售辅助hybrid + agent + script	国内 SaaS	10	均值 89.0 区间 87–92	1 轮	混合 Skill 类型, Phase C 全通过
消费推荐 · 吃饭决策food-associator + restaurant-finder	个人 consumer	2	97.6% 94.4%	2 轮	双 Skill 协同, 迭代一轮加一轮
B2B 销售 POC · 日企desk review complete	日企营业	10	P0 avg 90.9 P1 avg 87.7	—	A→B→C 完成, 数据实测待 2026-09
零售连锁 AI コンシェルジュ POCbridge → normal hybrid	日本零售	1 多 Phase	信頼度 0.75 → 0.85	1 轮	Bridge + Normal 混合模式, 精緻化
内部 VOC 分析工具voc-sync / by-product / by-customer / overview	内部工具	4	全 pass	—	4 个 Skill 按产品/客户维度拆分
GEI 自身(meta-run)自我维护 · 跑自己	自我维护	—	pytest 42 → 52 +10	4 轮	自审发现 15 个缺陷, 修掉 12 个

共 6 个真实客户项目 + 本项目自身。所有分数由 GEI Phase C 质量工程阶段自动评估产生,不是自评。

Get Started · 3 步

你怎么上手 —— 3 步教学

01Input

把需求材料放进去

PM 视角会议纪要、聊天记录、设计稿、既有文档——你已经在产出的东西,不需要为 GEI 专门写什么。 GEI 会在 Phase A(需求工程)里把这些原始材料归纳成一份 requirements-spec.md。

paths# 把源文档整理到项目根的这个目录
PRD/{项目名}/
  ├─ meeting-notes.md
  ├─ product-brief.docx
  └─ figma-export.png

02Trigger

一句话触发,然后撒手

输入触发词:"生成客户 agent" 或 "客户交付"。技术视角 gei-orchestrator 会读输入目录、通过 AskUserQuestion 问你 output_dir,然后接管整条流水线—— 你不需要写代码、不需要定义 skill。

terminal生成客户 agent
# orchestrator → 检查 pipeline-state.json
#              → 没有 = 全新项目, 从 Phase A 开始
#              → 有未完成 = 询问续传 / 重开
#              → 有已完成 = Phase D 进化模式

03Review

在每个检查点做决策

四个阶段(A 需求 · B 构建 · C 质量 · D 进化)各有一个 Reflection 检查点。 PM 视角每个检查点都是你审核阶段性成果的机会——GEI 把事实摆出来,决策权仍在你手里。你选一个动作,流水线按那个分支继续:

CONTINUE 继续 REPLAN 重新规划 FILL_GAPS 补数据 FINALIZE 收尾 PARTIAL_DELIVERY 部分交付

Phase C · 质量工程

它怎么保证质量 —— 不是拍脑袋

Phase C 是 GEI 的核心。每个 Skill 生成后, gei-evaluate 自动产出评估套件、跑多轮、算出评分;不达标就交给 gei-improve 用漏斗诊断定位瓶颈层、修补,然后再评估。循环直到达标或你决定 PARTIAL_DELIVERY。

gei-evaluate

为每个 Skill 自动生成 15 cases × 5 trials 的评估套件,按 pass@k、pass^k、rubric 三维度打分。

gei-improve

未达标时按 L0 输入 / L1 处理 / L2 输出 / L3 价值的漏斗诊断定位瓶颈层,精准修补。

默认评估量 · per skill

15 × 5 = 75 次执行

双指标评分

pass@k · pass^k

漏斗诊断层级

L0 · L1 · L2 · L3

pass@k 是"至少一次通过"的宽松指标——测下限; pass^k 是"每次都通过"的严格指标——测上限。两个数同时高,才算稳。

真实案例。上表的"消费电子 · LINE 客服 AI"项目走了 60 轮 Phase D 进化, 从初版一路迭代到 100.00 分(SPEC-v13)。每一轮的评估都是自动的,人只在检查点决策。

技术视角 评估代码本身也是 GEI 生成的,源码对你可见、可审计。你可以读、可以改、可以加自己的 rubric。没有"黑盒打分"这回事。

gei-package · v4.1+

14 份标准交付文档 —— 一键打包

Pipeline 完成后,一句"生成交付报告"触发 gei-package, 自动读取 pipeline-state + 全部产物 + git 元数据,按模板产出 14 份标准交付文档。 Non-UI 项目 14 份全自动,有 UI 的项目附 Playwright starter 供客户补截图。

#1

用户需求书

原始需求材料的结构化归纳

#2

需求分析报告

Phase A 产出的 requirements-spec

#3

开发计划

Skill 拆解 + 依赖关系

#4

代码清单

Git 跟踪文件完整目录

#5

测试报告

Phase C 评估结果 + 评分

#6

部署运维手册

环境要求 + 部署步骤

#7

ADR 决策记录

8 数据源全自动 (v4.4+)

#8

接口契约

Skill 间协作协议

#9

Demo 剧本

3 tier 自动化 (A/B/C)

#10

风险登记册

8 数据源全自动 (v4.3+)

#11

成本性能报告

Token 消耗 + 时间分析

#12

Trace 报告

Commit 溯源 + 变更链路

#13

Onboarding 手册

新成员快速上手指南

#14

复盘报告

Pipeline 回顾 + 改进建议

Demo 三级自动化 (v4.5b)

Demo 剧本不再是占位符。v4.5b 起根据项目类型自动选择最优 Demo 生成策略:

Tier A · 完整评估

有 eval-cases + results

当 Phase C 产出完整评估套件时,直接从 eval 结果抽取真实对话作为 Demo 剧本。

Tier B · 桌面评审

Desk Evaluation

无自动 eval 时,从 SKILL.md 和需求 spec 推导典型场景,构造模拟对话。

Tier C · 反推

从需求 + SKILL.md 反推

最小化 Demo——从需求文档和 Skill frontmatter 反推核心能力演示。

HTML 预览。v4.2 起交付包含 index.html,浏览器打开即看完整交付—— 内嵌 CSS + 左侧目录,无需额外工具。Bridge 模式也自动产出。

Automation · 非交互

Bridge 模式 —— 自动接单

除了用户手动触发的 Normal 模式,GEI 还支持 Bridge 模式: 一个 Python daemon 订阅上游系统(如 SalesRoom)的事件流, 自动接收会议纪要,fork CLI 子进程,非交互式跑完 Phase A→B→C 并打包交付。

上游系统

SalesRoom

发出 meeting.routed.v1 事件 + 会议纪要 Markdown

Builder Daemon

Python + S3

落地 envelope.json + 源文档,fork CLI 子进程

GEI Pipeline

A → B → C + Package

非交互式跑完,产出 result.json + delivery/

Bridge 与 Normal 的差异

交互Bridge 禁止 AskUserQuestion,全自动运行;Normal 每个检查点需用户审批。
Phase DBridge 不跑 Phase D(进化),只完成 A→B→C + 打包。
质量循环Bridge 禁止 gei-improve 循环,评估后直接打包。
记忆Bridge 下 gei-memorize 只做 observe,不做 write。
交付物v4.2 起 Bridge 也自动产出 delivery/ 包 + HTML 预览。

Memory · 跨项目经验

它如何越用越智能 —— 记忆系统

这是 GEI 和"一次性工具"最大的区别。 gei-memorize 这个 meta-skill 在每次 run 之后做三件事: read(读出过往经验)、observe(被动观察当次得失)、write(经你审批后写入)。

双层记忆

memory/

git 追踪 · 匿名化

跨客户的规律、失败模式、成功模板。团队共享的集体经验,不含任何真实客户身份。

local/gei-memory/

gitignored · 真实客户名

客户档案、用户偏好、项目注册表、复盘记录。只在本机,允许写真实名称,不进仓库。

5 大数据源 (v4.5a+)

记忆不只来自 pipeline 内部。v4.5a 起 gei-memorize 从 5 个数据源采集经验: pipeline reflections、Phase C 评估结果、Phase D CEO 轮次、 用户反馈、交付打包过程中的 gap 发现。

8 条自动触发规则

R1反复出现的问题 → 升级为 pattern

R2高价值复盘 → 抽象为经验

R3重复成功链路 → 固化为 playbook

R4客户档案增量更新

R5用户偏好采集

R6大文档过载的切分策略

R7Phase D 产物缺失检查

R8新 UI 必须接入已有 AI Skill 的门禁

R7 管"Phase D 跑了但文档没同步"的问题;R8 管"UI 做得漂亮但其实没调用真 AI"的假 Demo 问题。 所有写入都需要用户审批,GEI 不会偷偷改自己。

7

失败模式 pitfalls

14

交付模板 templates

5

安全规则 safety

8

Nudge 规则

Stack · 边界

技术栈和边界

运行时Skill 体系是纯 Markdown 声明式——没有代码框架可调试,但也没有框架锁定。
Builder 层Python 3 + boto3 + moto,部署到 SeaweedFS 兼容的 S3 沙箱。
测试pytest(当前 52 tests)+ 2 个 shell dry-run。
运行模式Normal(用户交互)/ Bridge(Python daemon 订阅 SalesRoom 事件)。
安全Skill Safety 5 条规则(v4.3+):含 S5 代码注入防护,gei-find 安装前强制扫描。
路由Pre-filter 快速响应(v4.5b+):问候 / 身份询问 / 维护 / 通用问题不进入 pipeline。

L2 自进化边界

GEI 可以积累经验、追加记忆、新增运行模式——但不能修改自己的骨架 (skills/*/SKILL.md 主体逻辑、contracts/*.md)。核心逻辑变更必须走人工 PR 流程。这是防 agent 失控的硬约束。

允许 · GEI 自己可以做

在 memory/ 和 local/gei-memory/ 下新增文件
用户审批后追加到 memory/gei-memory.md
在 skills/*/modes/ 下新增 mode 文件
追加条目到 config/modes-registry.yaml
改 scripts/builder_daemon/ 下任意代码与配置

禁止 · 必须走人工 PR

修改 skills/*/SKILL.md 主体逻辑
修改 contracts/*.md
修改 config/modes-registry.yaml 的已有条目
删除任何 memory 条目(用 superseded_by 代替)
修改 plugin.json 之外的 config

Anti-use-cases · 说人话

什么时候别用 GEI

GEI 不是所有场景都合适。以下几种情况,直接用别的工具更快,或者根本不该用这条技术路径:

一次性需求

需求只跑一次、不需要质量迭代——直接写 prompt 更快,走不到 GEI 的四阶段流水线就能交付完。

要求毫秒级响应

GEI 的生成阶段是"工程批处理",跑完一轮几分钟到几十分钟。生成出来的 agent 可以是低延迟的,但 GEI 自己不是实时推理系统。

对质量不敏感的原型

如果你只是要做个"能动起来的 demo"给客户看一眼、之后扔掉——Phase C 的质量循环会成为负担。

需求材料完全空白

GEI 读的是你已有的文档。如果需求还在脑子里、没有任何书面材料,先做 10 分钟需求澄清再来。

全自动完成客户需求。

GEI 到底是个什么东西

它交付过什么 —— 真实数据

你怎么上手 —— 3 步教学

把需求材料放进去

一句话触发,然后撒手

在每个检查点做决策

它怎么保证质量 —— 不是拍脑袋

14 份标准交付文档 —— 一键打包

Demo 三级自动化 (v4.5b)

Bridge 模式 —— 自动接单

Bridge 与 Normal 的差异

它如何越用越智能 —— 记忆系统

双层记忆

5 大数据源 (v4.5a+)

8 条自动触发规则

技术栈和边界

L2 自进化边界

允许 · GEI 自己可以做

禁止 · 必须走人工 PR

什么时候别用 GEI

一次性需求

要求毫秒级响应

对质量不敏感的原型

需求材料完全空白

全自动
完成客户需求。