阅鹿 Logo阅鹿
公众号聚合公众号聚合多主题导航多主题导航arXiv 精选arXiv 精选技术周刊技术周刊SignalSignal个人博客个人博客
登录注册
第 271 期

Signal #11:Agent 的中间过程,正在被产品化

2026.05.11

技术周刊

第 271 期
2026.05.11
Signal #11:Agent 的中间过程,正在被产品化
第 270 期
2026.05.04
本周 Signal:Coding Agent 正在从工具入口,走向工程基础设施
第 269 期
2026.04.27
本周 Signal:模型更新仍然重要,但不再是唯一主角
第 268 期
2026.04.20
本周 Signal:多 Agent 并行,开始从实验玩法变成产品默认交互
第 267 期
2026.04.13
本周 Signal:前沿 AI Coding 的分水岭,开始从 Agent 转向系统
第 266 期
2026.04.06
本周 Signal:代码仓库不只是实现载体,也开始成为 AI 理解业务的入口
第 265 期
2026.03.30
本周Signal:执行开始接管软件,界面退居为观测层
第 264 期
2026.03.23
本周 Signal:复杂度开始从“人”迁移到“系统”
第 263 期
2026.03.16
本周 Signal:软件工程岗位开始 AI-native 化
第 262 期
2026.03.09
本周 Signal:AI 工具正在获得长期记忆
第 261 期
2026.03.02
本周Signal & 我们可能一直误解了AI对软件研发的影响
第 260 期
2026.02.16
新年快乐&国产大模型崛起&企业研发AI自动化能力框架
第 259 期
2026.02.07
Anthropic和OpenAI同日发布,大模型还在狂奔吗?
第 258 期
2026.02.02
OpenClaw 才是真正的 AI 入口?
第 257 期
2026.01.26
Vibe Engineering & Skills & jQuery 4.0.0
第 256 期
2026.01.19
软件工程未来两年展望 & Web Almanac 2025
第 255 期
2026.01.12
CES 2026 & Agentic Coding 拆解
第 254 期
2026.01.05
FEDAY 2025 & Meta 收购 Manus
第 253 期
2025.12.29
The End of 2025 & A2UI
第 252 期
2025.12.22
又年底了,AI 啥样了 & State of AI
第 251 期
2025.12.15
React 再爆漏洞 & SPEC 会失败吗 & AutoGLM开源
第 250 期
2025.12.08
RSC 漏洞 & AI Code综述 & SEE Conf PPT
第 249 期
2025.12.01
Snapchat Valdi & AI时代的架构师 & Opus 4.5
第 248 期
2025.11.24
SEE Conf 2025&Gemini3时代
第 247 期
2025.11.17
GPT-5.1与文心5.0&国产编程模型
第 246 期
2025.11.10
2025乌镇峰会
第 245 期
2025.11.03
LongCat-Video发布&如何提升AI出码率
第 244 期
2025.10.27
活动多多的 1024&Vitest 4.0 is out!
第 243 期
2025.10.20
Announcing Vite+ & React Conf 2025
第 242 期
2025.10.13
React Foundation
第 241 期
2025.10.13
你追我赶的时代,太好了!
第 240 期
2025.09.29
Lynx HarmonyOS & 蚂蚁开源Neovate Code
第 239 期
2025.09.22
公众号 AI Feed
第 238 期
2025.09.15
Seedream4.0&小美&Apple发布
第 237 期
2025.09.08
当 Anthropic 禁止服务
第 236 期
2025.09.01
AI 下一站:新消费硬件
第 235 期
2025.08.25
AI 编程的失控风险 & DeepSeek V3.1
第 234 期
2025.08.18
开发者的十字路口
第 233 期
2025.08.11
世界机器人大会 & OpenAI 开源 & GPT5
第 232 期
2025.08.04
AI 时代重生系列
第 231 期
2025.07.28
WAIC 2025 & 扣子开源 & CodeBuddy
第 230 期
2025.07.21
当 Agent 满天飞,我们应该做些什么?
第 229 期
2025.07.14
Vercel+NuxtLabs & MCP安全问题
第 228 期
2025.07.07
Agent 百花齐放 & 上下文工程 & 成熟度模型
第 227 期
2025.06.30
预见 2049 & 目前AI最重要的影响
第 226 期
2025.06.23
prompt2code & Computer Use Agent
第 225 期
2025.06.16
人工智能 × 交互设计 & iOS 26 体验报告
第 224 期
2025.06.09
Cursor 1.0 & Windsurf Statement & php-node
第 223 期
2025.06.02
Prompt=代码 & MCP 蛮荒时代
第 222 期
2025.05.26
JS turns 30 & Google I_O & MS Build 2025
第 221 期
2025.05.19
浏览器里的 AI 革命
第 220 期
2025.05.12
前端开发AI实践 & Figma Config 2025
第 219 期
2025.04.28
Paper2Code & DeepWiki & 独立开发者项目鉴赏
第 218 期
2025.04.21
AI 在中后台实践 & 下半场
第 217 期
2025.04.14
AIBook、ADK、A2A and AI 50 2025
第 216 期
2025.04.07
Agents Are Quietly Transforming FE Development
第 215 期
2025.03.31
State of Vue.js Report 2025
第 214 期
2025.03.24
模型即产品 & 产品范式动摇
第 213 期
2025.03.17
TS重写选择Go & 第19届D2终端技术大会
第 212 期
2025.03.09
前端范式转移 & AGI 还很远
第 211 期
2025.03.03
AI & 低代码
第 210 期
2025.02.24
AI 引领变革 & 前端领域大模型
第 209 期
2025.02.17
Sunsetting CRA & 热文之解读DS
第 208 期
2025.02.10
应用提示词化&AI加速落地&原理学习
第 207 期
2025.01.20
年终总结和最新发布
第 206 期
2025.01.13
2024 JS Rising Stars & GUI Agents
第 205 期
2025.01.06
AI 24回顾&25展望
第 204 期
2024.12.30
2025年技术发展趋势&最后一期
第 203 期
2024.12.23
NPM 投毒 & 智能研发 2024
第 202 期
2024.12.16
Web Almanac 2024 & VSCode M11
第 201 期
2024.12.09
React v19 & Astro 5.0 & 蚂蚁体验技术日
第 200 期
2024.12.02
《生成式人工智能应用发展报告(2024)》
第 199 期
2024.11.25
2025年或将成为 AI Agent 爆发年
第 198 期
2024.11.18
百度世界大会 2024
第 197 期
2024.11.11
AI 普通人的机会
第 195 期
2024.10.28
State of Frontend 2024 & 1024 技术书单

相邻期数

上一期 270本周 Signal:Coding Agent 正在从工具入口,走向工程基础设施

Signal #11:Agent 的中间过程,正在被产品化

最近一个明显变化是:AI Agent 的竞争,正在从“最后能不能生成结果”,转向“中间过程能不能被管理”。

过去我们看一个 Coding Agent,最关心的是它有没有写出代码、有没有完成任务。但现在,越来越多产品开始把能力放到过程里:上下文怎么组织,计划怎么形成,记忆怎么沉淀,执行怎么追踪,结果怎么评价,工具和环境权限怎么控制。

这些东西过去更像是隐藏在 prompt、经验和人工操作里的技巧。现在,它们正在变成产品功能。

这说明 Agent 不再只是一个“代码生成入口”。它正在变成一个需要被运行、被观察、被验证、被约束的工程系统。

对 AI Coding 来说,这个变化尤其重要。因为真实研发任务不是一次生成,而是一段过程:理解输入,恢复上下文,形成任务表示,执行修改,验证结果,修正偏差。

所以,这周的 Signal 是:

未来的关键,不只是模型更会写代码,而是谁能把 Agent 的执行过程管理起来。

一个侧面依据是,近期论文和产品更新都在靠近这个方向:一边是 Agent Memory、过程型 Benchmark、形式化规格生成等研究开始增多;另一边是 Claude、VS Code、Cursor、Gemini CLI 等产品都在强化记忆、计划、追踪、评审、权限和验证能力。

国内技术

AI 技术与算法实践

[阿里云云原生] Cloud Native,Nacos,Skill Registry,个人助手

Nacos Skill Registry:面向个人场景的 Skill 中心实践

作者分享Nacos Skill Registry用于个人助手的实践

文章围绕Nacos Skill Registry在个人场景的实践展开。AI Agent普及使能力复用载体变为Skill,Nacos 3.2上线Skill Registry用于企业构建私有化SkillHub,也适用于个人。个人助手需Skill中心,解决多Agent工作方法散落问题。Nacos在个人Skill中心可作目录、安装入口、版本管理入口和能力资产沉淀处。实践场景包括社区Issue Triage、PR Review等。实践经验有SKILL.md保持轻量、Skill无状态等。还给出搭建个人Skill中心的快速启动步骤,最后指出Nacos Skill Registry对个人构建助手能力中心有价值。

[阿里云开发者] AI编程,Spec-Driven Development,SDD流程,Spec写作,工具生态

5 人 7 天干完 20 人数周的活:Spec-Driven Development 如何重新定义 AI 编程

文章介绍Spec-Driven Development重新定义AI编程

文章围绕Spec-Driven Development(SDD)展开,先介绍“5人7天”用Qoder开发QoderWork的案例,引出SDD。SDD将规格说明作为唯一真实来源,代码是其派生产物,是AI编程时代的工程方法。其流程分四阶段,有三文件体系和constitution.md。写好Spec很关键,要具备六要素,避免坏Spec的问题。SDD工具生态丰富,不同工具适用于不同场景。实战数据显示,SDD可提升API变更效率、降低代码错误率,但无Spec约束会有安全灾难和代码重复率问题。对比Vibe Coding,SDD更适合中大型项目。SDD与Harness Engineering相关,也存在五大陷阱和局限性,不过它正沿着三级光谱演进,未来人可能只编辑Spec,代码由AI生成和维护。

[阿里云云原生] 银行科技,规格驱动开发,AI研发

民生银行基于规格驱动开发(SDD)的 CodeAgent 私域研发探索与实践

民生银行探索基于SDD的CodeAgent私域研发实践

本文介绍民生银行基于规格驱动开发(SDD)的CodeAgent私域研发探索与实践。大模型发展使AI融入软件开发,但银行私域研发面临AI理解不足、生成代码难合规等挑战。2025年民生银行启动SDD探索,依托相关工具和通义千问驱动代码生成。SDD规格含企业、领域、项目级。开发流程框架分知识、流程、智能三层,研发流程含规格、计划等五环节。实践初期遇材料不匹配、交互负担大等问题,调整后效率提升。SDD虽有局限,如场景适配难、规格管理挑战大,但民生银行将引入多智能体协同,调整智能研发效用度量,深化探索,让AI更好融入研发流程。

[TesterHome社区] 软件测试,AI测试智能体,质量保障

实践心得:AI测试智能体如何重塑质量保障工作

Showpad团队打造AI测试智能体体系重塑质量保障工作

文章围绕Showpad团队打造的AI测试智能体体系展开。软件测试中,QA工程师常被大量机械前置工作困扰,影响核心价值发挥。Showpad团队构建了轻量化、单任务聚焦的AI测试智能体体系,由noob - tester调度,包含分析、规划、用例生成、执行、诊断五个智能体,分别负责测试背景分析、测试计划制定、测试用例生成、测试执行和失败根因诊断。该体系能沉淀完整测试数据,为工程师提供可审计的测试轨迹。这些智能体是辅助工具,让工程师专注专业判断,提升质量保障效率。

[阿里云开发者] AI研发,Agent协作,研发模式升级

Agent 时代的生产力悖论:当协作本身成为最大的瓶颈

Aone探索面向Agent的研发模式升级以提升效率

文章指出AI时代企业虽配备AI工具,但组织形态等未变,导致效率提升有限。传统协作分工、研发资源组织形式阻碍效率,如分工造成上下文碎片化、信息断层和沟通成本高,代码与文档分离、文档维护靠人也影响效率,发布流程也限制了Agent能力。为让Agent更好工作,需采用All In Code信息管理、隔绝外部依赖、具备自学习能力、建设安全执行和验证能力。Aone在面向Agent的研发模式上做了探索,包括改变研发模式、版本管理、组建Agent Teams等,还引入ChangeSet记录变更信息。

[梯度不陡] AI Coding,软件重建,ProgramBench

Meta 做了个实验:让 AI 从零重建软件,结果全军覆没

Meta实验让AI从零重建软件,9个顶级模型全军覆没

Meta在论文ProgramBench中提出AI Coding Benchmark,让模型在无源码,仅提供程序和文档的条件下从零重建完整软件系统。测试200个真实项目、9个顶级模型,完整解决率为0%。该测试与传统代码评测不同,更注重行为理解、系统拆解等能力。它将AI Coding问题从代码生成推进到系统重建,暴露出当前模型在无人类提前组织结构时的诸多问题,也提醒工程团队在接入Coding Agent时要正确评估其能力,明确任务边界,重视验证环节。

[梯度不陡] AI Coding,端到端自动化,验证分层,Benchmark

AI Coding 别等写完再测:从输入到黑盒验收的验证分层

文章提出AI Coding端到端自动化验证需构建分层系统

文章指出AI Coding从“生成代码”走向“参与交付”,验证需构建分层系统。传统验证后置易致问题暴露,因前期输入、表示等环节可能有偏差且执行成本下降会放大上游偏差,所以验证要前移。端到端自动化验证分四阶段八层级:前置验证含输入和表示验证,确保任务可执行;执行结果验证有实现和工程验证,判断任务完成及代码入工程体系情况;黑盒验收验证含交互、视觉、回归验证,关注用户路径、设计意图和系统稳定性;人工验收保留高语义判断。验证分层是Benchmark基础,后续要解决评估体系和验证能力运行问题。

[美团技术团队] AI Coding,Agent评测,代码重构,技术债管理

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

团队分享31万行代码AI重构用Agent评测思路管理经验

文章围绕31万行代码AI重构实践,分享用Agent评测思路管理AI Coding的经验。背景是Agent评测系统业务和工程复杂度高,重构动因包括业务模型需升级、代码腐化、AI Coding缺规范。重构分三阶段:2月借助AI梳理技术债,发现AI可助‘看全’问题,人判断重点;2月底制定AI友好规范,先‘人人对齐’再‘人机对齐’;3 - 4月建立SOP,借AI完成工程分层与解耦,零排期渐进式重构业务模型,建设AI CR与Pre - PR机制及AI辅助测试用例生成规范。沉淀经验有:用评测思路管理AI Coding、AI重定义‘经验’价值、技术债可迭代消化、工程师角色转变,并给出团队落地行动指南。

[阿里云云原生] AI for Science,AI Agent,阿里云 AgentRun,科研基础设施

深势科技携手阿里云 AgentRun,加速科研 AI Agent 全速运行

深势科技携手阿里云 AgentRun 加速科研 AI Agent 运行

伴随人工智能与科学计算融合,AI for Science 变革,深势科技 2018 年起与阿里云合作推动科学计算上云。科研智能体应用有挑战,深势科技联手阿里云依托 AgentRun 等产品构建 AI 原生科研基础设施。AgentRun 有极致弹性,打破资源成本瓶颈;突破 Serverless 局限,让长时任务有持久记忆;有安全沙箱构建执行环境;全链路追踪降低调试成本。深势科技基于玻尔科研空间站推出 MCP 市场,借助 AgentRun 等快速实现科研工具 AI 化改造。未来双方将深化协作。

[阿里云开发者] AI研发,SDD,Harness,规范驱动开发,工程治理

告别“氛围编程”:基于 Harness 治理和 SDD 的团队级 AI 研发范式演进与实践

高德王树新分享基于SDD和Harness的团队级AI研发实践

本文来自高德大模型应用平台的王树新,分享团队级AI研发范式演进与实践。起初团队AI出码率提升但提效不明显,识别出AI Coding三大问题,如自由发挥、效率降低、关键信息丢失。深入分析发现提效困境原因,包括研发是全链路过程、存量应用“氛围编程”风险高、大型项目超出AI能力边界。为此引入SDD和Harness,前者将规范变为可被AI理解的“意图代码”,后者提供可控执行方案。实践中,通过设计知识库、处理需求PRD、专家团执行任务、任务部署实现全流程自动化。未来可探索更智能的Spec生成、强大的Agent Teams和完善的知识管理。

[腾讯技术工程] AI Agent,技术开发,工程实践,Goal-Driven,Task-Driven

十年老技术开发的 AI Agent 探索之路

十年老开发分享AI Agent探索实践与认知跃迁之路

这篇文章是一位十年老技术开发分享的AI Agent探索之路。作者先指出人工并发操作多个AI终端有吞吐有限、状态不稳定、难以规模化等问题,人是瓶颈,应让系统不再依赖人的实时在场。接着介绍80%的AI需求用10行Bash脚本就能解决,提出代码优先于Prompt的原则。在Vibe Coding翻车后,作者构建了24h无人值守的“24h打工人”系统,采用文件+轮询架构、SDD模式,实现智能并发和工具失败自动切换。该系统还能自我修复bug,关键在于建立设计文档、SDD流程和架构约束文件。从demo到系统,关键是治理,包括可观测性、持续评估、控制平面等。当前Agent开发正从“框架之争”转向“协议+runtime+control plane之争”。最后,作者对比了Task-Driven和Goal-Driven模式,指出Goal-Driven可解决迭代问题,落地需满足多个前提和遵循特定步骤,强调增强自我而非取代自我。

[TesterHome社区] 数据库安全,AI漏洞挖掘,测试能力提升

AI揪出潜伏20年高危漏洞!PostgreSQL、MariaDB爆RCE,测试人需要了解

国际安全机构用AI挖出PostgreSQL和MariaDB高危漏洞

2026年5月,国际安全研究机构用AI安全工具Xint Code,在Wiz zeroday.cloud黑客竞赛中,挖出PostgreSQL、MariaDB中潜伏超20年的高危RCE漏洞。PostgreSQL有两个双高危漏洞,全版本受影响;MariaDB的JSON_SCHEMA_VALID()函数有堆缓冲区溢出漏洞。传统SAST和人工代码审计难以发现这些漏洞,而Xint Code通过LLM+上下文语义分析等实现突破。此次漏洞给测试、安全测试从业者带来启示,建议补齐开源组件安全测试、内存类漏洞测试等能力,引入AI工具,做好应急与验证。

[AndroidPub] AI开发,AI协作配置,三层结构,可维护性

AI Coding 知识库最佳实践:三层结构重建可维护工程

文章提出用三层结构重构AI协作配置提升可维护性

文章指出团队引入AI工具后,配置文件易混乱,导致系统失去可维护性。为此提出用三层结构重构AI协作配置:基础层定义全局规则,如AGENT.md和rules.md,保持稳定;流程层承载特定场景流程,以Skill实现,注重复用;任务层处理独立任务,随用户输入动态生成,保持无状态。还给出内容分层判断方法、常见反模式,阐述分层收益及落地步骤,强调分层是AI协作从可用到可维护的关键。

[搜狐技术产品] 大模型,Claude Code,配置优化

别再瞎用Claude了!我花了半年调教出的顶级配置,效率直接降维打击

作者分享半年调教Claude Code顶级配置提升效率方法

文章介绍Claude Code的配置栈搭建,强调其重要性。先指出拉开差距的是配置栈而非prompt。随后阐述配置栈各层要点:Memory Hierarchy层,根memory文件应短且含关键规则;Path-Scoped Rules层,特殊规则放路径规则文件省token;Plan Mode层,将思考与动手分离,防止错误;Custom Subagents层,按需自定义子代理分工;Skills层,打包稳定工作流;Hooks和Determinism层,加确定性护栏;Server Stack层,少装服务器;Parallel Worktrees和Headless Automation层,并行管理和非交互运行。还给出下限和上限建议,提醒勿毁配置,最后引出Context Rot问题。

[阿里云云原生] AgentRun,记忆存储,智能体,代码示例

看 AgentRun 如何玩转记忆存储,最佳实践来了!

阿里云 AgentRun 演示智能体记忆存储创建及使用

本文介绍阿里云 AgentRun 以高代码为核心,为企业级 Agent 应用提供全生命周期管理。它集成表格存储,为智能体提供三种持久化记忆能力。创建并配置记忆存储后,可通过代码示例演示三种记忆类型的使用。快速使用部分给出创建记忆存储和 Agent 的步骤及体验记忆功能的方法。代码集成涵盖环境准备,详细阐述会话历史、长期记忆、会话状态的代码实现,包括不同方式的操作和示例代码。管理记忆存储部分提供查询单个记忆存储配置详情和列出当前账号下所有记忆存储的代码示例。

[得物技术] AI全栈开发,Harness,SDD,多仓管理模式

基于 Harness + SDD + 多仓管理模式的 AI 全栈开发实践|得物技术

得物分享基于 Harness+SDD 的 AI 全栈开发实践

文章分享得物基于 Harness + SDD + 多仓管理模式的 AI 全栈开发实践。先提出 Harness 思维,让 AI 参照已有实现生成代码,避免凭空创造带来的问题。接着介绍全栈工作区搭建与 Codebase Indexing,对比 Cursor 和 Claude Code。阐述 SDD 驱动的全栈代码生成流程,包括提示词范式、前后端需求分工等。说明多 Agent 协作实现前后端并行开发,以及前后端联调的三阶段验证策略和 Mock 数据要点。还提醒警惕 SDD 陷阱,给出测试介入建议。最后总结实践效益,如采纳率提升、耗时降低等。

[阿里云开发者] AI Coding,AGENTS.md,开发效率

一个文件让 AI Coding 效率翻倍:AGENTS.md 实践指南

作者分享AGENTS.md实践指南提升AI Coding效率

文章围绕如何写好AGENTS.md展开。先介绍其是指导AI Coding Agent工作的开放格式,起源于Anthropic的CLAUDE.md,经统一后成事实标准。实践中,没AGENTS.md时,项目存在前后端上下文割裂、AI不认识私域组件、不知项目规矩、不会启动项目和自测等痛点。AGENTS.md应遵循渐进式披露原则,只写必要信息和硬性规则,其他放链接。还介绍了仓库聚合、统一环境配置、验证闭环、自动化检查、参考项目引入等实践方法,给出编写模板和实施建议,指出其本质是用最小上下文成本让AI理解项目,维护过程也是知识沉淀。

大模型 & AIGC 前沿

[火山引擎Agent社区] Agent,Mobile Use Agent,平台型 Agent,移动端执行

当 Agent 真的开始“动手”:Mobile Use Agent 如何补齐平台型 Agent 的移动端执行闭环

Mobile Use Agent 补齐平台型 Agent 移动端执行闭环

文章围绕 Mobile Use Agent 展开,指出 Agent 平台进入“可执行能力”竞争阶段,很多平台型产品虽能助力构建 Agent,但在移动端执行存在能力缺口。操作手机在真实业务中复杂,有界面不稳定、API 不开放等问题。Mobile Use Agent 作为运行在云手机环境的执行型 Agent,可补充平台执行链路。接入后能应用于账号运营、App 测试等场景,从扩展能力、提升转化率、形成生态能力三方面为平台客户创造价值。它与传统 RPA 有别,更适合移动端任务。当前 Agent 平台竞争聚焦交付结果,Mobile Use Agent 能补齐移动端执行闭环。

[PaperAgent] 大模型,VLA,ActDistill,模型部署优化

VLA大模型部署的成本被同济ActDistill打下来了!

同济大学等提出ActDistill降低VLA大模型部署成本

具身智能中Vision - Language - Action(VLA)大模型虽能力强,但部署负担重。同济大学等提出ActDistill,其核心是把和动作有关的能力从VLA中抽出,让轻量模型合理使用算力。现有高效VLA方法多优化‘视觉—语言’链路,未抓住‘视觉语言变动作’。ActDistill通过图结构封装、动作引导蒸馏、动态路由三步实现动作经验抽取。它按动作需求跳层,能按需激活计算。实验显示,在benchmark上能压减计算量、提速,任务成功率接近甚至提升;真机实验平均执行时间缩短,体现出部署韧性,触及机器人部署现实问题。

[MiniMax 稀宇科技] 大模型,token退化,后训练数据,修复策略

大模型不认识马嘉祺?我们做了一次全链路排查

MiniMax团队排查大模型“马嘉祺识别”问题并提出修复策略

MiniMax M2系列模型出现“无法说出马嘉祺”问题,引发关注。团队从多维度排查,发现“嘉祺”虽为独立token,但后训练数据中出现频次极低致模型遗忘。对全词表扫描,约4.9%的token显著退化,分四类,日语token退化严重。这些退化或致小语种语言混杂和token遗忘。修复思路是确保后训练阶段每个token被练习,有构造合成数据、混入预训练数据、定向合成、词表裁剪+继续预训练等策略,还强调后训练数据覆盖要兼顾业务和token层面。

[海外独角兽] AGI,Agent,Coding,LLM,机器人

The Era of Agent:拾象 AGI 投资洞察

拾象团队发布2026年AGI投资洞察及各领域分析

文章是2026年AGI投资洞察,指出进入Agent时代,Coding Agent成增速最快新物种,AI Labs重注Coding。Anthropic靠Opus 4.5和Coding Agent领先,OpenAI和Google曾战略误判。硅谷LLM格局中,第一梯队是Anthropic、OpenAI、Google,xAI掉队,Meta冲击Tier 1,Neo Labs难进第一梯队。模型竞争关键在组织和战略文化,如Anthropic聚焦Coding,OpenAI有C端优势但战略失误,Google资源多但决策慢。市场应按To Human/To Agent划分,Agent成新消费者和生产者,其设计哲学转变,Anthropic向Agent云公司进化。机器人领域2026年是数据Scaling大年,技术从VLA转向World Model Policy,Neo Labs分追寻范式和专注高价值领域两类。

[阿里云云原生] 大模型,Agent管理,企业级AI中台,权限管理

Agent 从“能用”到“管好”,中间差了什么?

AgentRun团队推出开放平台解决企业Agent管理难题

文章围绕企业引入Agent面临的困境及AgentRun开放平台的解决方案展开。企业初期引入Agent“单点突破”,规模化推广时出现数据孤岛、权限失控等问题,不同角色协作链路冗长。企业落地Agent还面临抽象层级错位、隔离粒度粗糙、协作链路断裂、成本黑盒与审计缺失等挑战。AgentRun开放平台构建以员工权限管理为核心的三层多租户体系,实现分层治理;提供全链路能力,形成完整生产力闭环;重构角色分工,还有资源审批单功能。该平台标志企业AI应用走向有序治理,能实现合规审计可追溯、降本增效,激发全员创新。

[火山引擎Agent社区] 电竞,多模态大模型,AI电竞教练

依托 Doubao-Seed-2.0-lite 打造“AI 电竞教练”的架构设计与工程落地

依托Doubao - Seed - 2.0 - lite打造AI电竞教练框架并落地

文章介绍依托Doubao - Seed - 2.0 - lite打造“AI电竞教练”的架构设计与工程落地。Doubao - Seed - 2.0 - lite支持全模态输入,可“看”“听”游戏信息。为打造电竞教练,先拆分传统教练行为,提出每个专业行为维度由单独Agent负责的理念。工程落地时用Vibe Coding,与AI商量技术选型,设计出优雅结构。解决了大模型上下文有限、流式调用假死等问题。实现单局复盘后,构建上层教练进行单场和系列赛分析。最后用Seed - 2.0 - lite构建Web UI展示分析结果,解决前端性能问题。该项目使电竞指导平民化,架构具可扩展性。

[追问nextquestion] 大模型,类比推理,人工智能

让AI给林黛玉找个外国平替?大模型的文科推理有多离谱?

研究揭示大模型在类比推理能力上存在明显不足

文章围绕大模型的类比推理能力展开。科学家用字符串类比、数字矩阵和故事类比等任务测试大模型,发现当改变题目形式,如使用虚构字母表、重写故事表述,大模型准确率大幅下降,表现不如人类和儿童。在数字矩阵问题中,改变空白位置,大模型表现也下滑,说明其依赖表面特征,缺乏抽象理解。故事类比中,大模型也过度依赖表面特征。研究认为,声称大模型具备一般推理能力为时尚早,其在关键决策领域不能取代人类。未来可开发稳健性测试,还能从中国传统文学汲取灵感提升大模型类比能力。

[人人都是产品经理] AI,Agent Skill,开源指令,产品设计

开源一个commands帮你深度拆解顶尖Skills

作者开源 **/howSkills** 指令拆解 Agent Skill 并分享 AI 圈

作者继 /howPrompt 后,开源 /howSkills 指令,可自动深度拆解 Agent Skill,完成 8 个阶段分析并输出报告。以拆解 Codex 创建桌面宠物的 Skill 为例,展示其解决图像生成不确定性与精灵图精确性的矛盾,有身份锚点模式等设计巧思,提炼出 5 条可迁移最佳实践。介绍 /howSkills 使用方法,还分享 AI 学习行动圈,含微信群、腾讯文档和知识星球,供圈友交流学习。

[十字路口Crossing] 大模型,AI Agent,端侧AI,荣耀YOYO Claw

龙虾退烧后,荣耀给它造了一个宇宙

荣耀发布YOYO Claw小龙虾宇宙,推动AI Agent普及

OpenClaw热度退去后,需要稳定生长环境。4月13日荣耀发布YOYO Claw小龙虾宇宙,将OpenClaw嵌入PC、平板、手机。PC端界面简化,使用门槛低,可完成多种任务;平板端部署简单,适合轻量任务;手机端可本地运行,能与其他硬件联动。YOYO控虾以手机为入口,可远程指挥PC上的虾。荣耀还注重数据安全,核心数据本地处理。OpenClaw存在配置难、Token贵、隐私担忧等问题,荣耀此举是手机厂商对端侧AI的尝试,目标是让AI Agent安全便捷,真正服务大众。

[火山引擎Agent社区] 大模型,教学评估,视频理解,多模态能力

豆包大模型 2.0 lite + ArkClaw 让教学反馈效率成倍提升

豆包大模型 2.0 Lite 与 ArkClaw 优化教学评估全链路

传统教学评估流程繁琐,需数小时甚至一天。豆包大模型 2.0 Lite 和 ArkClaw 可在飞书群完成教学评估。文章介绍其优化教学评估全链路的 5 个步骤,包括搭建助手、开通模型、构建技能、上传视频、分析生成报告和发送结果。该工作流底层依靠豆包大模型,具上下文一致性、精准解构指令和高保真多模态解析能力,可将教学评估链路集成到群聊自动完成,降低执行成本,不替代人类决策。

[DeeplearningAI] 大模型,视觉 - 语言模型,Kimi K2.6

The Batch: 954 | Kimi K2.6 挑战开源权重模型领先者

Moonshot AI 发布 Kimi K2.6 模型挑战开源权重模型

文章介绍了 Moonshot AI 升级后的 Kimi K2.6 模型。它是 1 万亿参数的视觉 - 语言模型,专为代码生成设计,性能与 Qwen3.6 Max Preview 和 DeepSeek V4 相当,略逊顶级闭源模型。其输入输出支持文本、图像和视频,采用混合专家架构。模型权重可免费下载,有免费聊天界面,API 有收费标准。运作上延续 K2 架构,使用原生 INT4 量化,有“preserve thinking”模式和智能体群模式。性能方面,在部分基准测试领先开源模型,但整体落后闭源模型,幻觉率低于前代。2025 年末长时自主执行成竞争焦点,Kimi K2 系列持续强化长时任务执行能力,减少人类干预。

[数字生命卡兹克] AI,信息监控,热点网站,精选机制

这个封装了我3年自媒体经验的AI热点网站,今天向所有人免费开放。

作者开放AIHOT网站,可监控精选AI信息

作者将承载三年AI自媒体经验的AIHOT网站免费开放。该网站可监控AI信息、精选内容,保护用户注意力。作者先筛选168个信源并分三类,再处理抓取的大量信息。精选机制复杂,评分策略迭代11版,最终让大模型打5维分,用代码重算质量分和判断精选。还有事件聚类系统避免重复,AI日报功能自动整理前24小时精选内容。未来作者还计划开发新功能,但部分可能仅对公司员工和签约博主开放。

[Founder Park] AI,生活方式平台,体验式种草,社区电商

字节、快手、小红书之后,阿班押注下一代种草要从“围观”走向“体验”

Dreamova创始人阿班创业做AI时代体验式生活方式平台

Dreamova创始人阿班曾在字节、快手、小红书任职,探索工具、社区、电商发展。2025下半年创业,定位AI时代体验式生活方式平台,用户可将喜欢的生活方式一键变成体验视频。00后不满足围观,要代入体验。产品前期从消费决策Agent方向转型,核心用户是美国00后职场女性。做社区要选有势能人群,产品核心壁垒是积累Taste - Decision Graph。Agent辅助人和人连接,不会消解社区形态。不担心大厂复刻,竞品需具备多模态技术等能力。技术卡点在视频生成成本和速度,商业模式分电商佣金和体验式广告两阶段,优先美国市场,预计6月Alpha launch,7月正式launch。

[蚂蚁技术AntTech] 智能体技术,ASL协议,AI安全

蚂蚁集团牵头推动ASL协议,填补智能体可信协作空白

蚂蚁集团等发布ASL协议,补齐AI产业安全短板

近日,IIFAA联盟携手蚂蚁集团等伙伴发布《智能体安全可信互连协议》(ASL协议),补齐AI产业安全短板。随着多智能体协作问题凸显,ASL作为安全增强组件,叠加于现有协议上,构建端到端安全防护体系,涵盖可信身份等四大维度。其能力已支撑停车缴费等高频场景AI服务落地,在支付场景中与ACT协同配合。ASL协议秉承开放原则,欢迎行业伙伴推动迭代,IIFAA联盟成员超300家。

[火山引擎] 大模型,全模态理解,Agent能力,Coding能力,GUI能力

Doubao-Seed-2.0-lite升级,支持全模态理解

Doubao - Seed - 2.0 - lite升级,支持全模态理解及多能力提升

今天,Doubao - Seed - 2.0 - lite升级,它是豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,Agent、Coding与GUI能力同步升级,已在火山方舟上线。其视觉理解能力大幅提升,在多领域达SOTA水平,融入语音理解后可跨模态联合推理。在视频、音频理解上表现出色,音频多项指标优于Gemini - 3.1 - Pro。Agent和Coding能力使长任务更稳定,胜任前后端深度开发;GUI能力实现界面理解与操作执行一体化。全模态结合其他能力可解锁电竞、在线教育、海外电商运营等场景,此外,Doubao - Seed - 2.0 - mini全新版也已上线,Tokens效率更高。

[Web3天空之城] 大模型,AI编程,软件开发,通才趋势,SaaS变革

万字对话 Claude Code 创始人 Boris Cherny:软件开发的终局与重生 | 全文图解+视频

Claude Code创始人谈AI编程变革及软件开发未来趋势

本文是对Claude Code创始人Boris Cherny的访谈。Claude Code诞生于对‘产品能力过剩’的捕捉,前期发展受挫,自Opus 4起呈指数级增长。Boris表示编码问题对他而言已解决,AI能编写100%代码,虽处理旧代码库和生僻语言有局限,但在新框架表现出色。他个人多通过手机工作,用循环和智能体提升效率。他认为未来通才会增多,团队成员都将参与编程;AI削弱部分传统SaaS护城河,为初创公司带来机会。他还将AI编程比作印刷机发明,预言软件将民主化。最后探讨了多智能体协作、本地化趋势等话题。

[PaperAgent] 大模型,内省意识,后训练,DPO,异常检测

Anthropic最新论文:检测LLM内省意识的方法

Anthropic等团队研究检测LLM内省意识的方法

Anthropic与MIT等团队研究发现,大语言模型(LLM)能感知被注入的steering vector,具备“内省意识”,且该能力在DPO等后训练阶段涌现。研究构建标准化概念注入实验,测试多种Prompt变体和对话格式,发现模型在合理Prompt下能保持中等检测率、0%误报率,Assistant人格对能力发挥关键作用。实验还表明,内省能力不是预训练产物,DPO是其涌现的关键转折点;异常检测非简单线性关联,检测与识别由不同机制处理;存在“证据载体”与“门控”两阶段电路;当前模型内省能力被严重低估,通过消融拒绝方向或微调偏置向量可提升检测率。

[iOS新知] 大模型,iOS 27,Extensions,Siri

刚刚!iOS 27 炸场:Siri 可以换 Claude 的脑,苹果要做 AI

苹果iOS 27将推Extensions功能,可换Siri背后模型

iOS 27将推出「Extensions」功能,允许用户通过Siri、Writing Tools等Apple Intelligence功能,按需调用已安装App的生成式AI能力,可选择如Claude、Gemini等第三方模型驱动Siri等功能,声音也能单独设置。该功能会随iOS 27、iPadOS 27、macOS 27在今年秋天发布。这是苹果重要转变,从控制权在手到开放平台。iOS 27将在6月9日WWDC正式亮相,届时会明确接入细节。

[AI 深度研究员] AI,智能体,算力需求,产业重构

黄仁勋说,别把 AI 讲成一场恐慌

英伟达黄仁勋谈AI进化、算力需求及应用风险

2026年5月5日,英伟达CEO黄仁勋与CNBC主持人对话,探讨AI重构产业逻辑。他指出AI已从“会生成内容”进化到“会做事”,计算范式从检索转向生成,算力需求暴涨1000倍,瓶颈从芯片转向电力。智能体AI能理解、推理、计划、调用工具完成任务,编程不再是程序员专属。AI产业栈是“五层蛋糕”,下一轮竞争在工厂。AI公司盈利使算力需求爆发,AI替代工作任务而非工作本身。黄仁勋认为真正风险是人不用AI,要扩大野心拥抱AI。

行业动态与开源热点

[数字生命卡兹克] AI,AI热点监控,Skill,API,RSS

装了这个AI热点Skill之后,你再也不需要自己去刷AI新闻了。

作者开放AIHOT网站及接入方式,含Skill等功能

作者将AI热点监控网站AIHOT免费开放,首日访问用户突破10万UV,浏览PV超60万。应用户需求,紧急上线浅色模式,并通宵开发增加了Skill、API、RSS三种接入方式。AIHOT Skill可让Agent读取网站数据,有AI日报、精选模式、按时间窗口或分类查、按关键词查等功能;RSS为用阅读器的用户准备;API供想集成数据到系统的用户使用。

[极思TopMinds] 加密项目,AI中转站,稳定币,特朗普家族

Pro丨API中转这门生意下,是总统家族的加密野心

特朗普家族旗下WLFI发布AI项目WorldClaw及代币生态玩法

2026年5月5日,特朗普家族旗下加密项目WLFI转发新产品WorldClaw,它是WLFI生态首个AI项目,将多个大模型API打包,接入超60个模型,后续计划超300个,定价低30%,用WLFI发行的USD1支付。套餐分四档,最贵套餐送硬件和抽奖券,特等奖是与特朗普家族共进晚餐。AI中转站生意竞争激烈,已有84家跟进,国内有人低价竞争。WorldClaw特别之处在于按次卖API、送饭局,吸引用户进入WLFI代币生态。但WLFI深陷官司和治理争议,孙宇晨起诉其敲诈勒索,质疑USD1储备金,WLFI也起诉孙宇晨,且金库抵押代币套钱遭质疑。

前端开发与工程化

[GSYTech] 前端,Flutter,Dart,Agent Skills

实用性 Max ,新 Flutter & Dart Agent Skills 深度解读

Flutter与Dart更新Agent Skills,实用性显著提升

文章深度解读新 Flutter & Dart Agent Skills。官方调整策略,增加“任务导向型” Skills 提高实用性。其生产基于文档驱动,有自动化生成流水线,用 Generator 工具爬取文档喂给 AI 生成 Skill。介绍了多种新技能,如 Flutter 的布局报错修复、添加组件测试、集成测试、响应式布局、国际化配置、JSON 序列化、组件预览等;Dart 的修复运行时错误、使用模式匹配、迁移到 checks 包等。此次更新让 Skills 提供决策逻辑,含反馈循环,更具实用性。

[搜狐技术产品] 前端开发,代码生成,React,Ant Design

深度解析与业务实战:将 screenshot-to-code 改造为支持 React + Ant Design 的前端利器

团队将screenshot - to - code改造为支持React + Ant Design的工具

文章聚焦将screenshot-to-code改造为支持React + Ant Design的前端工具。先介绍代码生成发展,指出大语言模型带来转变,市面上已有多种多智能体代码生成工具。接着分析screenshot-to-code源码核心流程,包括运行过程、工作流程和核心数据流。然后阐述改造实现,调整提示词工程,切换默认模型为智谱的glm - 4.6v并进行后端处理与校验,适配样式系统,改造后能输出符合要求的代码,减少基础布局和组件拼装时间。最后总结项目应用场景、痛点及后续方向,强调其在重塑研发链路、提升研发效率和保障用户体验上的价值。

[谷歌开发者] Android开发,Android CLI,智能体工作流

Android CLI 实战指南: 借助任意智能体,实现 3 倍速高效开发

谷歌开发者推出 Android CLI 等工具实现高效开发

谷歌开发者推出用于智能体工作流的全新 Android 工具与资源,包括 Android CLI、Android 知识库和 Android Skills。Android CLI 作为从终端开发的主要接口,能减少 LLM 的 Token 使用量,提升项目完成速度,具备 SDK 管理、项目创建等功能。Android Skills 是模块化指令集,涵盖常见工作流。Android 知识库可让智能体获取最新开发者指南。这些工具能使开发更高效,还能让向 Android Studio 过渡更顺畅。目前 Android CLI 已推出预览版,可下载体验。

工程效率 & 工具链

[iOS新知] iOS开发,UI自动化,AXe工具,Claude集成

让 Claude 直接操控 iOS 模拟器!1.8K star 神器 AXe 把 UI 自动化变成一句话

神器AXe让Claude操控iOS模拟器实现UI自动化

文章介绍了1.8K star的iOS模拟器自动化工具AXe。作者曾尝试四种iOS模拟器自动化方案均有不足,而AXe是单一Swift写的CLI二进制,无server,功能全。它能实现点击、滑动等操作,底层用Apple私有Accessibility API + HID通道,无需集成SDK。其亮点包括按accessibility ID点击、batch子命令跑流程、可装成Claude Code的skill。与xcrun simctl、Facebook idb对比,AXe更适合单机CLI自动化和AI Agent驱动。可通过brew安装,还给出使用示例及仓库地址。

系统性能与底层优化

[字节跳动技术团队] 系统性能与底层优化,动态性能框架,DDPF,端智能,虚拟机调节

抖音动态体验优化实践与思考

抖音推出 DDPF 框架优化动态体验并开展多方面实践

文章围绕抖音动态体验优化,介绍 DDPF 框架实践。因抖音业务拓展、用户增长,传统资源调度难以为继,故推出 DDPF 框架。该框架历经三阶段演进,有标准核心链路,实现从‘代码硬编码’到‘多维度条件精准过滤’跨越。在感知与决策方面,构建复杂感知能力,如低交互场景识别、性能负载分级;引入端智能技术,包括打通端智能与 DDPF、GC 多参数智能决策、端侧大模型应用。虚拟机调节专项则通过数据埋点、挖掘可调节能力,产出优化策略。未来,还需关注动态诊断和数据挖掘,以形成完整体系,为行业提供范式。