Phase C · 质量工程
它怎么保证质量 —— 不是拍脑袋
Phase C 是 GEI 的核心。每个 Skill 生成后,
gei-evaluate 自动产出评估套件、跑多轮、算出评分;不达标就交给
gei-improve 用漏斗诊断定位瓶颈层、修补,然后再评估。循环直到达标或你决定
PARTIAL_DELIVERY。
gei-evaluate
为每个 Skill 自动生成 15 cases × 5 trials 的评估套件,按 pass@k、pass^k、rubric 三维度打分。
⇌
gei-improve
未达标时按 L0 输入 / L1 处理 / L2 输出 / L3 价值 的漏斗诊断定位瓶颈层,精准修补。
默认评估量 · per skill
15 × 5 = 75 次执行
pass@k 是"至少一次通过"的宽松指标——测下限;
pass^k 是"每次都通过"的严格指标——测上限。两个数同时高,才算稳。
真实案例。上表的"消费电子 · LINE 客服 AI"项目走了 60 轮 Phase D 进化,
从初版一路迭代到 100.00 分(SPEC-v13)。每一轮的评估都是自动的,人只在检查点决策。
技术视角
评估代码本身也是 GEI 生成的,源码对你可见、可审计。你可以读、可以改、可以加自己的 rubric。
没有"黑盒打分"这回事。