Signal #14:别只看出码率了,AI Coding 的指标正在变

AI CodingAI AdoptionAI MetricsPR ThroughputTask Engagement
2026-06-01 周一

代码生成越来越多,不代表研发效率一定同步提升。
当 AI IDE 和 Coding Agent 开始进入真实研发流程,企业需要的,已经不只是“出码率”这一类代码层指标。

如果一个团队的 AI 生成代码占比越来越高,出码率也在上升,但 PR 吞吐量没有明显变化,返工还是很多,验证和 review 压力也没降下来,那你很难说:研发效率真的因为 AI 提升了。

这也是我最近越来越强烈的一个感觉:
AI Coding 的评价口径,正在从“AI 写了多少代码”,转向“AI 承接了多少真实研发工作”。

过去一段时间,很多团队衡量 AI Coding,最常用的还是代码层指标:AI 生成代码占比、代码采纳率、活跃用户数、出码率提升了多少。

这些指标仍然有价值。它们回答的是一个很基础的问题:AI 有没有真的进入开发过程。

但问题在于,今天很多团队使用 AI IDE 或 Coding Agent,早就不只是“让它补几行代码”了。更常见的使用方式,是通过对话让它修改文件、实现需求、修 bug、补测试、处理 review feedback,甚至把一段更完整的任务交给它。

一旦使用方式变了,评价方式就会开始滞后。

如果我们还主要用代码层指标去理解 AI 的价值,往往只能看到“它参与了写代码”,却不一定能看到“它有没有真正改变研发流程”。

一个很直接的信号:平台开始重新定义 adoption#

这周 GitHub 在官方更新《Copilot usage metrics API adds cohorts for AI adoption》里,新增了 ai_adoption_phase

它不再只是统计谁在用 Copilot,而是开始把用户分成几个阶段:

  • Code first
  • Agent first
  • Multi-agent
GitHub 把 Copilot 使用方式分成 Code first、Agent first、Multi-agent,背后反映的是 AI Coding adoption 口径的变化

这个变化值得注意。

因为它背后问的,已经不是“你有没有用 AI”,而是:

你还停留在代码生成阶段,还是已经开始让 Agent 进入任务执行、多入口协作,甚至更接近真实研发流程的阶段?

更关键的是,GitHub 这套分层背后对应的统计项,也不只是代码生成和接受情况,还包括 PR created、merged、reviewed,以及 median time-to-merge 这类更接近研发流程的指标。

这说明平台方也开始意识到:
AI Coding 的成熟度,不能只看“生成了多少代码”,还要看它到底进入了哪一种工作方式。

换句话说,评价对象正在从“代码生成工具的使用情况”,迁移到“Agent 对研发流程的参与程度”。

另一类信号:开始直接用工程产出来表达 AI 的价值#

当平台开始用 PR 吞吐、任务承接、Review 反馈来表达 AI 价值时,评价重心已经不再只是代码生成本身

如果说 GitHub 代表的是“评价口径的变化”,那另一类信号则更直接:一些平台已经开始用研发产出来表达 Agent 的价值,而不是只说它写了多少代码。

比如 Cursor 这周发布的客户案例《Faire doubles PR throughput with Cursor Cloud Agents》。

它强调的不是代码采纳率,而是:

  • weekly PR throughput 翻倍
  • 每周 2000+ 次 automated agent runs
  • 一个原本需要 18 个月的迁移任务,被压缩为由一个工程师管理一组 agent fleet 来推进

这套表达方式已经很不一样了。

它不再是“AI 帮开发者多写了一些代码”,而是:
AI 开始承接任务、推进 PR、压缩迁移成本,并直接影响工程产出。

OpenAI 这周的案例《How Ramp engineers accelerate code review with Codex》也有类似意味。Ramp 用 Codex 加速 code review,让工程师更快获得有实质内容的 PR feedback。这里 AI 的价值也不是“又写了多少代码”,而是进入了 review 和协作环节,开始影响研发流转速度。

所以我觉得,一个很清晰的变化正在出现:

AI Coding 的价值衡量,正在从“代码生成参与度”,转向“任务承接能力”和“流程推进能力”。

为什么只看出码率,已经开始不够了#

“出码率”不是没用。它依然是一个重要指标,尤其是在 AI 落地早期。

因为在那个阶段,团队首先要回答的是:大家到底有没有把 AI 用起来?AI 有没有实际参与代码生产?

但问题是,出码率天生更接近“代码生产”这一层,而不是“研发交付”这一层。

代码是研发流程的一部分,不是全部。

一个任务最终能不能高质量交付,除了生成代码,还取决于很多环节:需求理解是不是准确,上下文有没有找对,修改范围是否可控,测试是否补全,验证是否通过,review feedback 能不能被吸收,最终是否能稳定合并。

所以你会看到一种越来越常见的情况:

  • AI 参与度很高
  • 代码产出很多
  • 但真实交付并没有同比例提升

问题往往不在“AI 没写代码”,而在于:
它虽然参与了代码生产,却还没有稳定进入任务推进和流程闭环。

这也是为什么,只看出码率,开始不够了。

下一阶段,指标可能会分成三层#

AI Coding 的指标体系,正在从代码层,逐步走向任务层和结果层

如果沿着这个方向看,我觉得下一阶段 AI Coding 的指标,可能会越来越清晰地分成三层。

第一层:代码层指标#

比如:

  • AI 生成代码占比
  • 代码采纳率
  • 出码率
  • 活跃用户数

这一层回答的是:AI 有没有被用起来,以及它是否参与了代码生产。

第二层:任务层指标#

比如:

  • Agent 承接了多少 issue
  • 承接了多少 PR
  • 参与了多少 review
  • 完成了多少修复任务、迁移任务、CI 处理任务

这一层回答的是:AI 有没有进入真实研发任务。

第三层:结果层指标#

比如:

  • PR 吞吐量
  • 返工轮次
  • 验证通过率
  • 人工介入次数
  • 从需求到合并的周期变化

这一层回答的是:AI 有没有真正改善研发系统。

这三层指标的含义完全不同。

代码层指标看的是“参与了多少”,
任务层指标看的是“承接了多少”,
结果层指标看的是“最终改善了什么”。

很多团队现在的状态,其实不是没有指标,而是指标还主要停留在第一层。

企业真正需要的,不只是更高的 AI 活跃度#

这件事放到企业研发提效里,其实更明显。

在 AI 落地早期,看活跃用户数、代码采纳率、出码率,很正常。因为第一步确实是让工具先被用起来。

但如果 AI 真的开始进入研发流程,那么企业最终关心的问题一定会变成:

  • AI 承接了多少真实任务?
  • 这些任务有没有真正进入 PR?
  • PR 有没有更快通过 review 和验证?
  • 返工轮次有没有下降?
  • 人工介入次数有没有减少?
  • 从需求到合并的周期有没有缩短?

这些问题,比“AI 生成了多少代码”更接近研发效率本身。

指标迁移之后,另一个问题也会随之出现:当 AI 不再只是个人工具,而开始进入团队工作流,企业就必须关心它是否可控、可治理。比如 Vercel 这周发布的《Team-wide provider allowlist on AI Gateway》这样的更新也值得留意。平台方一边在补 Agent 的能力,一边也在补治理、边界和组织级使用方式。因为一旦 AI 不再只是个人工具,而开始进入团队工作流,企业最终一定会要求它的价值,能够落到更接近流程和结果的指标上。

结语#

AI Coding 的早期问题,是 AI 能不能写代码。
后来问题变成,AI 写出来的代码能不能被接受。
而现在,一个新的问题正在变得更重要:

AI 能不能稳定承接真实研发工作,并最终转化成可验证的工程产出。

所以,出码率仍然重要,但它已经不是终点。下一阶段,企业更需要关注的,可能是任务承接率、PR 吞吐量、返工轮次、验证通过率、人工介入次数,以及从需求到交付的周期变化。

当指标开始从代码层走向任务层、结果层时,AI Coding 才算真正从一个“会写代码的工具”,进入企业研发系统。

每周 Signal|AI x SE》是我持续记录 AI 与软件工程变化的栏目

不追热点,只记录那些正在发生、且值得长期跟踪的变化。

欢迎关注和交流~

企业研发 AI 自动化》是我持续记录 AI 进入真实研发流程后的实践系列。

它关注的不只是 AI Coding 工具本身,而是从需求输入、任务表示、Agent 执行到自动化验证的完整链路:AI 如何在真实工程系统里稳定运行,并逐渐形成可复用的研发自动化能力。

欢迎关注和交流~

加载中...
加载评论中...