Signal #18:Coding Agent,从 IDE 走进研发系统
本周值得关注的,不是 Coding Agent 又多会写代码,而是它开始被接进真实研发系统。
过去,开发者更多是在 IDE、CLI 或云端任务界面里主动唤起 Agent;现在,Jira 里的需求单、Notion 里的文档和讨论、Slack 里的线程、GitHub 里的 PR 与 Review,正在变成 Agent 接任务、读上下文、执行修改和交付结果的入口。
这背后的变化是:Coding Agent 不再只是一个开发工具,而是开始进入研发链路里的需求、协作、执行、验证和度量环节。
一句话说:Coding Agent 的下一阶段,不是生成更多代码,而是进入真实研发系统,成为任务执行的一部分。

字节跳动复盘 AI Coding:代码贡献率不是最终指标
洪定坤分享里最值得关注的是:AI 代码贡献率大幅提升,并不等于研发吞吐同比例提升。真实软件工程仍要处理需求理解、架构约束、验证闭环和组织化沉淀。

字节跳动洪定坤分享AI Coding在软件工程的实践探索
文章借字节 AI Coding 实践说明:代码贡献率提升不等于研发吞吐同比例提升。真正值得团队关注的是存量系统中的需求理解、上下文恢复、验证闭环和工程责任如何被重新组织。

别急着神化 Loop Engineering:先看懂这 8 个问题。
Loop Engineering 从概念走向工程约束
文章围绕 Loop Engineering 的背景、边界和风险展开,重点不是把 Agent 神化,而是把持续运行、状态管理、工作树隔离、Skill、Connector、自动化检查等组件放进同一个工作系统。适合作为本周 Loop Engineering 讨论的入口。

CodeBuddy 团队从 Harness 架构谈到 Token 经济学
文章把 AI Coding 的工程问题拆到 Harness、Hooks、Rules、模型选择和配额策略上,说明真正的瓶颈不只是模型智力,而是如何设计可复用、可观察、可控成本的执行框架。

当 Agent 替你值班:基于 Devix 构建 7x24 自动化运维 Harness Engineering
阿里团队用 Devix 构建 7×24 自动化运维 Harness
案例把监控脚本、中转服务、诊断 Skill、规则库和分级决策引擎连接起来,形成面向生产运维的 Agent 闭环。价值在于把“诊断、判断、动作”分层,而不是让大模型直接接管值班。

小红书QEcon分享回顾:Agent 驱动的服务端端到端测试
小红书分享 Agent 驱动的服务端端到端测试
文章把端到端测试的难点归结为跨域、长链路和组合爆炸,提出让 Agent 直接感知业务接口、自主调用工具,并通过知识库加载、Debug-first 和经验沉淀降低用例生成与数据构造成本。

阿里重磅开源!Open Code Review:一周 5k star,为你的代码保驾护航
阿里开源 Open Code Review,用确定性工程约束 AI 评审
Open Code Review 的关键不是“让 AI 审代码”这件事本身,而是用文件筛选、上下文打包、规则穿透、轨迹评估和客观评测集降低误报漏报,适合放在 AI 代码评审基础设施方向。

每天10万行AI代码,人肉Code Review的崩塌是Infra工程的范式拐点
AI 代码产能暴涨后,瓶颈转向验证能力工业化
文章从“每天 10 万行 AI 代码”切入,强调代码生成成本下降后,企业真正缺的是消化代码产能的系统能力。核心判断是:Spec 可以简洁,但约束、验证和判定体系必须工程化。
蚂蚁 ASL 协议关注多 Agent 协作中的可信边界
文章把智能体协作风险拆成身份冒充、链路篡改、意图变形和授权失控,并用可信身份、可信连接、可信意图、可信授权构建协议层防线。它补足了 Agent 工程化里经常被忽略的安全与授权层。

别再手动复制 Skill 了:多 Agent 时代的 Skill 管理方案
Nacos Skill Sync 试图解决多 Agent 时代的 Skill 分发问题
当开发者同时使用多个 Agent,Skill 会出现复制、同步、版本和冲突治理问题。文章提出中心仓库 + 本地分发的管理方案,把 Skill 从个人配置提升为可治理的团队资产。

MacTalk 从火山大会观察到 AI Coding 的三个坑
这篇更像对字节分享的二次判断:Vibe Coding 很爽,但企业研发的瓶颈会转移到需求理解、架构约束、上下文恢复和交付验证。适合作为官方分享之外的补充视角。

AI Coding时代,Snap如何打造自研AI代码评审工具
Snap 自研 CodePal,把 AI Code Review 做进流程
Snap 的 CodePal 强调跨仓依赖追踪、语义摘要、缺陷检测和多阶段评审循环。文章最有价值的是评估闭环:PR 覆盖率和缺陷召回率都有量化结果,说明 AI Review 要靠持续反馈而不是一次性 Prompt。

QoderWork Skills 开发实践:从传统数科到 AI 数科的转型探索-我的Skills进阶之旅
大淘宝数科团队把 Skills 当作领域专家手册
文章从数科团队的日常分析、AB 实验和用户洞察报告切入,把 Skills 设计成可复用的领域流程、输入规范和知识资产。它适合和你之前对 Skill 本质的判断放在一起看。

Loop 不是 Agent 架构,Harness 才是更核心的骨架
文章反对把 Loop Engineering 当成完整架构,认为 Loop 只负责持续运行,Harness 才负责判断、验收、失败处理和边界控制。这一判断很适合放在本周 Agent 工程化争论的中心。

淘天场景营销前端用 Specflow Agent 解决上下文和任务结构问题
文章从前端 AI Coding 不达预期讲起,提出用 Specflow 先做 PRD 分析、模块拆分、结构化任务和可视化管理,再交给 Coding Agent 执行。重点是把模糊需求转成可执行任务结构。

场景营销前端 AI Coding — AI Native 的视觉稿还原
Tarot Pixel 让 Coding Agent 自己查询设计稿上下文
淘天团队没有走传统一次性 D2C 路线,而是把设计稿转成可查询的结构化视觉预览、API 和 Skill,让 Agent 按需理解设计上下文。它更接近“设计上下文服务”,不是单纯生成代码。

没有测试的核心代码,先织特征测试网再交给 AI 重构
这篇是非常实用的 AI 重构案例:先用打桩、样本、旧版基线把遗留行为存档,再让 AI 分步骤重构。它说明 AI 重构的前提不是大胆,而是先建立可回归的行为网。

Loop Engineering 实践指南:在 Code Buddy 中构建自主循环系统
CodeBuddy 通过 /goal、/loop 和 Automations 承载自主循环
文章从 ReAct、双层循环和状态外置解释 Loop Engineering,再给出模块迁移、CI 监控等场景。它可以和 Harness 文章对照:Loop 解决持续推进,Harness 解决可靠执行。

Claude Code 主创复盘疯狂的一年|对话 Boris & Cat
Claude Code 主创复盘一年:经验沉淀与自动验证成为高阶用法
Boris 和 Cat 的复盘里,最有价值的是把错误写进 CLAUDE.md、让 Agent 自己运行验证、用 routine/loop 处理重复任务。这说明 AI Coding 正从命令式使用进入工作流沉淀阶段。

比Claude Code提升150%,人大&微软自主科研框架Arbor起飞
人大与微软 Arbor 用假设树组织自主科研状态
Arbor 的关键是 Hypothesis-Tree Refinement:不是盲目多跑实验,而是把实验结果回传到研究状态中。它对 Agent 工程化的启发是,长期任务需要可积累、可修正的状态表示。

得物社区从表单到 Agent,重构活动搭建流程
案例经历三版演进:从 AI 填表,到 LangGraph 编排,再到两阶段方案生成与预览工作台。它说明业务 Agent 落地常常不是替掉系统,而是在现有表单和流程上做工程妥协。

上海交通大学等机构论文揭示AI Agent难胜任真实工作原因
文章借 Workspace-Bench 1.0 讨论真实工作空间理解问题:Agent 不是缺少工具调用次数,而是难以恢复文件、任务、上下文之间的关系。对研发组织来说,RAG 与上下文系统要从检索片段走向理解关系。

火山引擎Agent Infra升级,让Agent真正进入企业工作流
火山引擎升级 Agent Infra,让 Agent 进入企业工作流
文章围绕企业 Agent 的开发、运行、治理和安全展开,重点不在单个 Agent 能做什么,而在企业如何把 Agent 放进账号、权限、运行环境和业务流程。

美团 LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
美团 LongCat 开源 VitaBench 2.0,评估长期动态智能体
VitaBench 2.0 把智能体放到长期动态用户建模场景中,关注长期记忆、偏好变化和行为一致性。它比一次性问答更接近真实 Agent 的评测需求。

Datawhale 给出 Claude Code /loop 实操教程
文章偏教程向,但保留价值在于把 Loop Engineering 落到 Builder、Checker、编排器和停止规则上。适合作为“能跑起来”的入门材料,而不是概念讨论。

火山引擎 AI 搜索千万级 Agent 架构演进与实践:从 ReAct 三节点到 Unified Policy
火山引擎 AI 搜索从 ReAct 三节点演进到 Unified Policy
文章把搜索 Agent 架构从固定 ReAct 流程推进到统一策略控制,重点是如何在搜索、规划、工具调用和结果生成之间做系统级调度。适合归入 Agent System Engineering。

ORGEval 用图同构思路评测大模型优化建模能力
文章介绍把优化模型实例转为二分图,并用 WL-test 等方法避免传统评测里的蒙对、无解和求解器限制。它提醒我们:模型评测的关键不是题目更多,而是判定方法是否可靠。

Google 推出 DiffusionGemma,探索非自回归文本生成
DiffusionGemma 用扩散式文本生成换取更高推理速度,适合本地低并发和低延迟场景。它的意义不在于立刻替代自回归模型,而是提示文本生成架构仍有路线分化。

全球首个!京东全栈开源JoyAI-VL-Interaction,让大模型从“一问一答”走向“边看边说”
京东开源实时视频视觉语言交互系统 JoyAI-VL-Interaction
JoyAI-VL-Interaction 试图让多模态模型从“一问一答”走向“边看边说”,强调主动判断、实时响应和智能体委托。它代表多模态模型向物理世界和实时交互场景靠近。

一文总结2026火山引擎FORCE大会 - 向Coding和Agent全面进军。
火山 FORCE 大会集中展示豆包模型、视频生成和 Agent Infra
这篇是对火山大会的综合梳理,可作为 Seed 2.1、Seedance、Seedream、火山方舟 CLI 和 Agent Infra 的总入口。周刊中可以保留一篇总览,避免重复收多篇发布稿。

字节 Seed2.1 正式发布,重点补强 Coding、Agent 和多模态
官方文章给出 Seed2.1 的能力定位:复杂任务、通用 Agent、代码工程交付和多模态理解。相比大量二次解读,官方发布更适合作为事实基准。

Doubao-Seed-2.1 重磅发布:18 小时跑通芯片设计 RTL 代码全流程
Seed2.1 用 18 小时跑通芯片设计 RTL 全流程
这个案例的价值不只是“模型会写 RTL”,而是展示了读 Spec、写 RTL、仿真、综合、验证应用的工程闭环。可作为大模型进入高门槛工程任务的观察样本。
社区供稿 | 百灵 Ling & Ring 2.6 技术报告发布:面向真实 Agent 工作流的高效万亿级模型
百灵 Ling & Ring 2.6 面向真实 Agent 工作流做模型分层
文章强调不同任务复杂度下的模型家族设计:Ling 重效率,Ring 重深度推理和复杂执行。它呼应了模型路由和任务分层趋势,而不是单模型包打天下。

微软亚洲研究院 GenAC 让价值模型具备生成式 Critic 能力
GenAC 面向强化学习中的信用分配问题,让价值模型不仅打分,还能生成解释与反思。它对复杂任务训练、Agent 自我改进和过程监督都有启发。

SOAR 2026 回顾|从算力极限到开源生态,一场关于推理未来的深度对话
SOAR 2026 讨论推理未来:算力极限、稀疏化与开源生态
文章聚焦大模型推理侧的系统优化,包括稀疏化、算子融合、生态协同等。相比模型发布新闻,它更贴近长期的 AI Infra 成本和效率问题。

京东 Oxygen xLLM 大模型推理引擎正式捐赠开放原子开源基金会,共建国产 AI Infra 生态
京东 Oxygen xLLM 捐赠开放原子,推动国产 AI Infra 生态
Oxygen xLLM 采用服务与引擎解耦架构,目标是解决大模型规模化部署问题。其进入开放原子体系,意味着国产推理引擎开始进入更标准化的开源生态。

从「找视频」到「产视频」:快手RaG推动推荐系统迈向完全生成时代
快手 RaG 推动推荐系统从找视频走向产视频
文章把推荐系统从内容检索推进到个性化内容生成,关注的不再只是召回排序,而是“生成可推荐内容”。这是推荐系统与生成模型融合的一个重要方向。

翁荔关于 Scaling Law 的新洞察聚焦训练预算分配
文章从模型训练预算和规模法则角度讨论如何分配算力、数据和训练策略。它适合放在模型能力背后的基础规律板块,而不是泛模型新闻。

腾讯混元AI Infra如何优化Hy3 Preview:一次大模型推理性能提升的技术拆解
腾讯混元 AI Infra 拆解 Hy3 Preview 推理性能优化
文章从算子优化、并行策略、多级缓存等角度讲推理性能提升。它属于真正的模型系统工程材料,技术含量高,值得从大模型新闻流里单独拎出来。

达摩院 ICML'26|大模型优化建模总是“能跑但错”?DA-RL让模型学会先写后审
达摩院 DA-RL 让模型在优化建模中先写后审
文章关注 NL2Opt 中“能跑但错”的问题,用审查与强化学习机制提升优化建模可靠性。它和 ORGEval 一起说明,模型进入专业建模领域需要更强的验证与反馈机制。

React Router v8 强化其 React 应用基础框架定位
文章指出 v8 没有激进重构,而是稳定 v7 以来的框架化能力,并重新划分 React Router 与 Remix 的关系。对老项目的意义主要在迁移边界和生态定位变化。

重写即加速!Apple 安全团队把 C 代码换成 Swift,快了 13%
Apple 安全团队把 C 字体引擎核心迁移到 Swift,并实现性能提升
这个案例值得保留:团队先补到 99.7% 测试覆盖率,再用 Swift 重写高风险 C 代码,并通过减少拷贝、堆分配和动态派发取得性能收益。它是“安全重写不等于性能退步”的好例子。

华为浏览器内核团队分享基于 AI 重构 Web 应用体验
文章讨论 Web Copilot、Web Agent 和 Agentic Web,提到截图 + Set-of-Mark 等方式让 AI 理解页面并跨站执行。适合放在 Web 与 Agent 交互范式变化里。

Vite 8.1 发布,继续推进打包开发模式和 Rolldown 生态
新版本围绕大型应用开发性能、代码块导入映射、Wasm ESM、Lightning CSS、import.meta.glob 等能力更新。适合保留为前端基础工具链动态。

TRAE Work 发布 Design 模式:对话即设计,画布即原型
TRAE Work 发布 Design 模式,把对话、画布和代码模式连接起来
Design 模式的价值不是单纯 AI 出图,而是让自然语言生成设计稿、画布微调、交互原型和 Code 模式衔接。它代表 AI 设计工具向产设研链路靠近。

文章借论文探讨Figma转代码差最后一公里的问题
文章借 Figma2Code 论文讨论 D2C 的“最后一公里”:截图还原和 Figma JSON 都不等于工程语义。真正难点在于把设计结构翻译为组件、状态、交互、数据和工程约束。

鸿蒙 Flutter 的现状和阶段性汇报 ,期待大家的 PR 和 Issue
GSY 汇报鸿蒙 Flutter 现状与社区贡献路径
文章梳理鸿蒙 Flutter 的分支、release/dev 版本、PR 流程、调试 Skills 和后续内存优化目标。对关注鸿蒙跨平台生态的人来说,比泛生态宣传更有工程细节。

Rspack 2.1 发布:React Compiler 提速 10 倍!
Rspack 2.1 发布,围绕 React Compiler、类型检查和生态工具继续提速
Rspack 2.1 带来 React Compiler Rust 版提速、生产构建和 HMR 优化、TypeScript 7 支持,以及 Rsbuild、Rslib、Rstest、Rslint、Rsdoctor 等生态更新。

Android 17 发布,系统能力向智能体 Skill 和自适应体验扩展
文章覆盖 AppFunctions、智能体 Skill、Gemini 集成、大屏窗口化、性能与隐私更新。值得注意的是 Android 正把 AI 能力纳入系统级开发接口。

突破云原生网关局限:面向海量 AI 沙箱的 Web VNC 动态路由与会话保持深度实践
搜狐团队用 OpenResty 解决海量 AI 沙箱的 Web VNC 动态路由
虽然归到云原生也可以,但它和前端可观测体验关系密切。文章通过控制面同步拓扑、数据面首包驱动和 Cookie 寄存会话状态,解决动态沙箱的可视化访问问题。

Liquid Glass 的底层秘密?深入 _UIPortalView 和 CAPortalLayer
Liquid Glass 背后的 _UIPortalView 与 CAPortalLayer 机制
这篇偏底层客户端技术,适合保留在客户端工程化视野里。它不是普通 API 介绍,而是理解 iOS 新视觉效果背后的渲染与视图机制。

日志能不能改?SLS LogStore 原生支持更新和删除了
阿里云 SLS LogStore 原生支持更新和删除
文章解释为什么日志系统开始承载业务状态修正、回填和订正需求。设计上仍保持追加写主路径,把 update/delete 作为显式能力,适合风控标签、计费明细等场景。

AWS推出一个开源TypeScript框架,专为AI智能体搭建后端服务打造
AWS Blocks 面向 AI 智能体后端服务做模块化框架
AWS Blocks 以 TypeScript Block 组件封装本地开发、类型安全、云端部署和 AI 代码生成约束。它反映了一个趋势:AI Agent 开发需要更明确的后端边界和可部署单元。

「Agent 友好」的可观测:阿里云发布观测与智能运维 Skills
阿里云把可观测和智能运维能力封装成 Agentic Skills
文章把云监控、日志服务、STAROps 等能力改造成 Agent 可调用的 Skills,让自然语言指令连接告警配置、诊断和代码修复。关键变化是云能力入口从人机界面转向 Agent 接口。

Firebase 深度接入智能体生态,支撑全栈应用构建
Firebase 与 Google AI Studio、Android Studio、Cloud Run、Workspace 数据等打通,降低从原型到部署的门槛。它展示了后端平台如何被重新包装成 Agent-friendly 开发底座。

阿里云 Kafka 原生消息入湖能力上线
Kafka 版原生集成 Iceberg 与 OSS Table Bucket,强调零 ETL、Schema 管理、双模写入、分区与自动运维。它延续了实时流与数据湖融合的基础设施方向。

构建 AI 时代的知识底座:直播数据 LLM Wiki 实践
阿里云直播数据 LLM Wiki 实践,探索 AI 时代知识底座
文章把直播数据组织成面向大模型使用的 Wiki,重点不是传统检索,而是知识编译、结构化与可复用。适合放在 RAG/知识工程与业务数据治理之间。

CodeWave 用 SDD 驱动制造企业 AI 工程化
案例来自明月海藻集团,关注用 Spec/SDD 打通六大异构系统。虽然带有产品案例色彩,但可作为低代码/AI 工程化进入传统企业流程的观察样本。

八倍产出之后,Anthropic 工程团队发现了一个没人能解决的新问题
Anthropic 工程团队观察到代码产出提升后的注意力切换问题
文章讨论 AI 让工程师从编写者转向决策者,同时带来孤独感、注意力切换和管理方式变化。它的价值在于提醒组织:提效之后,人和流程的新瓶颈会浮出来。

独家专访丁添:两个月连融两轮,AI for Computing赛道黑马智子芯元做对了什么?
智子芯元用 AI for Computing 切入算子自动化优化
文章介绍 KernelCAT 用大模型、运筹优化和算法自动发现做异构算子调优。它属于 AI 反哺计算系统的方向,和单纯 AI 应用不同,值得保留。

钉钉 A1 代表 AI 硬件从记录转向工作协同入口
MacTalk 的观察点在于:AI 录音卡的价值不是硬件本身,而是语音信息进入会议纪要、待办、企业协同和后续执行流程。硬件只是采集入口,后端工作流才是核心。

AI 支付从概念走向微信、支付宝、京东等入口竞争
文章把 AI 支付拆成导购、支付协议、专属卡和自主支付等形态,指出真正跑通自主支付仍早。它适合放在 Agent 进入交易闭环的行业观察里。

AI 降低软件自研门槛,SaaS 与企业内部工具边界变化
刘润这篇可以保留,因为它提出“核心系统买平台,差异流程自己做”的判断。它和你关心的 PDesk/企业 AI 工具建设有一定关联。

硅星人从产品入口和生态角度观察微信 AI 助手小微
文章从语音入口、聊天助手、小程序管道、微信数据、流量分配和成本收益角度分析小微。它是本周国内 AI 产品入口变化的重要信号。

QQ 邮箱团队推出给 Agent 用的邮箱 Agently Mail
Agently Mail 把邮箱变成 Agent 可操作的信息入口
文章介绍 QQ 邮箱团队内测 Agently Mail:与个人邮箱隔离,支持 Agent 收发、读取、搜索、下载附件和总结邮件。它的价值在于把 newsletter、系统通知和异步协作信息交给 Agent 处理。

刘润强调下一波 AI 红利藏在公司流程里
文章用火山大会案例说明 AI 只有进入广告生产、巡检、研发、流程管理等业务环节,才会从个人工具变为公司生产力。这个判断和“组织能力”主线一致。
三大Agent开发运营产品升级,帮企业建好“1+N+X”Agent体系
火山引擎提出企业 Agent 的 1+N+X 体系
文章从 TRAE 企业版、扣子 3.0、HiAgent 3.0 讲企业 Agent 的开发、运营和管理闭环。营销色彩较重,但能反映国内大厂正在把 Agent 平台包装成组织系统。

Agent 不只属于程序员|实测 Vida:做好那些「不难但烦」的活
Vida 展示非程序员使用桌面 Agent 处理琐碎工作的路径
这篇不是强技术稿,但能观察 Agent 从开发者工具外溢到普通工作流的方式。重点在于“不难但烦”的任务如何被 Agent 化,而不是模型能力本身。

硅星人判断 2026 会出现大量中国版 Codex
文章把国内 AI Coding / AI Working 产品竞争放在一个视角下看,适合做行业格局观察。保留它,不是因为技术细节多,而是因为它解释了为什么企业内部工具会开始拥挤。

设计效率从200小时狂飙至4天!腾讯内部“三谦”AI工作流揭晓
腾讯内部“三谦”AI 工作流提升设计效率
文章展示腾讯内部用 AI 做创编、设计和内容生产的流程。虽然有宣传色彩,但可以作为大厂把 AI 嵌入设计生产链路的案例。

数字生命卡兹克盘点国民级 App 如何把自己蒸馏成 Skills
这篇适合保留到 Skill/Agent 生态观察:当 App 把能力封装成 Skill、MCP 或 Agent 接口,应用的边界会从 UI 变成可调用能力。

甲子光年调查具身数据采集产业链
具身智能落地的瓶颈之一是数据采集与真实场景覆盖。文章从产业链角度看“机器人需要怎样的数据”,比普通机器人融资新闻更接近长期技术约束。
