阅鹿 Logo阅鹿
公众号聚合公众号聚合多主题导航多主题导航arXiv 精选arXiv 精选技术周刊技术周刊SignalSignal个人博客个人博客
登录注册
第 270 期

本周 Signal:Coding Agent 正在从工具入口,走向工程基础设施

2026.05.04

技术周刊

第 270 期
2026.05.04
本周 Signal:Coding Agent 正在从工具入口,走向工程基础设施
第 269 期
2026.04.27
本周 Signal:模型更新仍然重要,但不再是唯一主角
第 268 期
2026.04.20
本周 Signal:多 Agent 并行,开始从实验玩法变成产品默认交互
第 267 期
2026.04.13
本周 Signal:前沿 AI Coding 的分水岭,开始从 Agent 转向系统
第 266 期
2026.04.06
本周 Signal:代码仓库不只是实现载体,也开始成为 AI 理解业务的入口
第 265 期
2026.03.30
本周Signal:执行开始接管软件,界面退居为观测层
第 264 期
2026.03.23
本周 Signal:复杂度开始从“人”迁移到“系统”
第 263 期
2026.03.16
本周 Signal:软件工程岗位开始 AI-native 化
第 262 期
2026.03.09
本周 Signal:AI 工具正在获得长期记忆
第 261 期
2026.03.02
本周Signal & 我们可能一直误解了AI对软件研发的影响
第 260 期
2026.02.16
新年快乐&国产大模型崛起&企业研发AI自动化能力框架
第 259 期
2026.02.07
Anthropic和OpenAI同日发布,大模型还在狂奔吗?
第 258 期
2026.02.02
OpenClaw 才是真正的 AI 入口?
第 257 期
2026.01.26
Vibe Engineering & Skills & jQuery 4.0.0
第 256 期
2026.01.19
软件工程未来两年展望 & Web Almanac 2025
第 255 期
2026.01.12
CES 2026 & Agentic Coding 拆解
第 254 期
2026.01.05
FEDAY 2025 & Meta 收购 Manus
第 253 期
2025.12.29
The End of 2025 & A2UI
第 252 期
2025.12.22
又年底了,AI 啥样了 & State of AI
第 251 期
2025.12.15
React 再爆漏洞 & SPEC 会失败吗 & AutoGLM开源
第 250 期
2025.12.08
RSC 漏洞 & AI Code综述 & SEE Conf PPT
第 249 期
2025.12.01
Snapchat Valdi & AI时代的架构师 & Opus 4.5
第 248 期
2025.11.24
SEE Conf 2025&Gemini3时代
第 247 期
2025.11.17
GPT-5.1与文心5.0&国产编程模型
第 246 期
2025.11.10
2025乌镇峰会
第 245 期
2025.11.03
LongCat-Video发布&如何提升AI出码率
第 244 期
2025.10.27
活动多多的 1024&Vitest 4.0 is out!
第 243 期
2025.10.20
Announcing Vite+ & React Conf 2025
第 242 期
2025.10.13
React Foundation
第 241 期
2025.10.13
你追我赶的时代,太好了!
第 240 期
2025.09.29
Lynx HarmonyOS & 蚂蚁开源Neovate Code
第 239 期
2025.09.22
公众号 AI Feed
第 238 期
2025.09.15
Seedream4.0&小美&Apple发布
第 237 期
2025.09.08
当 Anthropic 禁止服务
第 236 期
2025.09.01
AI 下一站:新消费硬件
第 235 期
2025.08.25
AI 编程的失控风险 & DeepSeek V3.1
第 234 期
2025.08.18
开发者的十字路口
第 233 期
2025.08.11
世界机器人大会 & OpenAI 开源 & GPT5
第 232 期
2025.08.04
AI 时代重生系列
第 231 期
2025.07.28
WAIC 2025 & 扣子开源 & CodeBuddy
第 230 期
2025.07.21
当 Agent 满天飞,我们应该做些什么?
第 229 期
2025.07.14
Vercel+NuxtLabs & MCP安全问题
第 228 期
2025.07.07
Agent 百花齐放 & 上下文工程 & 成熟度模型
第 227 期
2025.06.30
预见 2049 & 目前AI最重要的影响
第 226 期
2025.06.23
prompt2code & Computer Use Agent
第 225 期
2025.06.16
人工智能 × 交互设计 & iOS 26 体验报告
第 224 期
2025.06.09
Cursor 1.0 & Windsurf Statement & php-node
第 223 期
2025.06.02
Prompt=代码 & MCP 蛮荒时代
第 222 期
2025.05.26
JS turns 30 & Google I_O & MS Build 2025
第 221 期
2025.05.19
浏览器里的 AI 革命
第 220 期
2025.05.12
前端开发AI实践 & Figma Config 2025
第 219 期
2025.04.28
Paper2Code & DeepWiki & 独立开发者项目鉴赏
第 218 期
2025.04.21
AI 在中后台实践 & 下半场
第 217 期
2025.04.14
AIBook、ADK、A2A and AI 50 2025
第 216 期
2025.04.07
Agents Are Quietly Transforming FE Development
第 215 期
2025.03.31
State of Vue.js Report 2025
第 214 期
2025.03.24
模型即产品 & 产品范式动摇
第 213 期
2025.03.17
TS重写选择Go & 第19届D2终端技术大会
第 212 期
2025.03.09
前端范式转移 & AGI 还很远
第 211 期
2025.03.03
AI & 低代码
第 210 期
2025.02.24
AI 引领变革 & 前端领域大模型
第 209 期
2025.02.17
Sunsetting CRA & 热文之解读DS
第 208 期
2025.02.10
应用提示词化&AI加速落地&原理学习
第 207 期
2025.01.20
年终总结和最新发布
第 206 期
2025.01.13
2024 JS Rising Stars & GUI Agents
第 205 期
2025.01.06
AI 24回顾&25展望
第 204 期
2024.12.30
2025年技术发展趋势&最后一期
第 203 期
2024.12.23
NPM 投毒 & 智能研发 2024
第 202 期
2024.12.16
Web Almanac 2024 & VSCode M11
第 201 期
2024.12.09
React v19 & Astro 5.0 & 蚂蚁体验技术日
第 200 期
2024.12.02
《生成式人工智能应用发展报告(2024)》
第 199 期
2024.11.25
2025年或将成为 AI Agent 爆发年
第 198 期
2024.11.18
百度世界大会 2024
第 197 期
2024.11.11
AI 普通人的机会
第 195 期
2024.10.28
State of Frontend 2024 & 1024 技术书单

相邻期数

上一期 269本周 Signal:模型更新仍然重要,但不再是唯一主角

Signal#10:Coding Agent 正在从工具入口,走向工程基础设施

最近这一轮 AI Coding 工具和模型更新里,GPT-5.5、DeepSeek V4、Codex、Cursor SDK、Copilot、Google Agents CLI 等都值得关注。

但真正值得记录的变化,不只是“模型又变强了”,而是 Coding Agent 正在被接入工程系统本身。

过去,AI Coding 更像是开发者手边的一个工具入口:可能在 IDE 里,也可能在终端、网页或云端任务界面里。开发者提出需求,Agent 修改代码、生成 PR,再由人来 Review。

现在,Agent 的位置正在继续后移:它开始进入 Issue 系统、CI/CD、云端沙箱、企业云环境、技能目录、调试链路和持续任务编排。比如,Cursor SDK 让 Agent 可以从自动化工作流、CI/CD 和产品系统中被调用;OpenAI Symphony 让 Issue 系统从“记录任务”变成“调度 Agent 执行任务”的入口;Copilot 和 Google Agents CLI 也都在把 Agent 往云端执行、技能体系和生产链路里推。

这意味着,AI Coding 的竞争正在从“谁能生成更多代码”,转向“谁能把 Agent 稳定嵌入工程系统”。

当模型能力逐渐接近,真正拉开差距的会是系统能力:任务如何进入系统,Agent 如何获得上下文,执行如何隔离,结果如何验证,风险如何治理。

AI Coding 的主战场,正在从单纯的模型能力,走向任务表达、执行环境与系统闭环。

国内技术

AI 技术与算法实践

[梯度不陡] AI Coding,代码生成,代码验证,任务表达

AI Coding 的上半场是生成,下半场是验证|AI 代码被采纳,不代表需求可验收

文章探讨AI Coding下半场验证重要性及实现路径

文章指出AI Coding上半场让代码生成、采纳,下半场要验证、修正结果并形成工程闭环。AI降低生成成本,也转移验证压力,出码率高但不能替代验证。任务表达对AI执行和系统验证都重要,验证不是简单测试,可分执行中与交付后两类。执行中验证纠偏,交付后验证保障质量,验证闭环可让错误有去处,下半场核心是建立判断能力,让AI成果纳入工程流程。

[阿里云开发者] Agent开发,环境工程,多源实时上下文

Agent 开发范式演进:从环境工程出发,"简化"多源实时上下文

阿里云沈林分享企业级Agent开发及上下文构建方法

文章整理自阿里云沈林在2026中国生成式AI大会的分享,指出企业级Agent落地瓶颈在上下文供给能力。软件工程领域Agent易跑通,因其工作环境数字化;而零售等行业,Agent因信息不足难落地。文中提出五项关键判断:信息完备是前提,EventHouse提供三类感知方式;信息非越多越好,需统一Catalog管理信息资产;知识不等于信息囤积,EventHouse生成Knowledge Wiki进行知识对账;知识迭代是生产级变更,EventHouse构建持续发布流程;简单可靠是Agent普惠入场券,EventHouse降低接入门槛。企业级Agent竞争关键在上下文供给能力。

[阿里云开发者] AI,Skill,Qoder,工作流自动化

Qoder Skills 完全指南:从零开始,让 AI 按你的标准执行

文章提供Qoder Skills完全指南,助力AI按标准执行

文章围绕Qoder Skills展开,介绍其本质、结构、应用场景等。Skill是AI世界的菜谱,能让AI按标准执行,有跨平台兼容性。它适合文档资产创建、工作流自动化、MCP能力增强等场景。文中还介绍了安装开源Skill的方法、实战场景演示,以及编写Skill的规范,包括文件格式、YAML Frontmatter详解等。此外,提及进阶模式、测试迭代、团队协作与治理、常见问题排查等内容,最后给出最小闭环实践路径和附录。

[微软亚洲研究院] 脑科学,人工智能,神经退行性疾病,多模态诊断,药物研发,病程预测

AI解码脑疾病,开启精准诊疗新可能

微软亚洲研究院(上海)用AI创新推动神经疾病诊疗升级

神经退行性疾病长期面临早期难诊断、药物难入脑、病程难预测等挑战。微软亚洲研究院(上海)深耕人工智能与脑科学交叉领域,以三大创新推动神经疾病诊疗升级。一是提出基于模态锚定基础模型交互的统一多模态阿尔茨海默病诊断框架,提升诊断精度;二是构建实验室闭环机器学习框架,"人机协作"提升脑靶向药物递送效率;三是提出AdaMedGraph图神经网络模型,实现帕金森病个性化病程建模和预测。此外,研究院正构建覆盖全流程的脑健康AI研究体系,未来将拓展前沿方向,加强合作,加速成果落地转化。

[哔哩哔哩技术] GPU,隔离技术,时分复用,内核隔离

GPU隔离技术的分析与改进

B站基于NVIDIA开源驱动实现GPU内核隔离方案

文章围绕GPU隔离技术展开。先指出AI发展中GPU利用率低,隔离技术至关重要。介绍从空间和时间维度切分算力的思路,以及CUDA计算软件栈。分析业界方案,如NVIDIA的MPS和MIG、CUDA劫持、内核拦截,各有优缺点。B站基于NVIDIA开源驱动设计内核隔离方案,解析GPU运行机制,通过BGM模块实现显存和算力隔离。经测试,该方案能满足GPU混部隔离需求。最后指出虽实现隔离,但时分复用有局限,未来可深挖NV驱动细节和调整用户态调度策略。

[阿里云开发者] AI,自动化评测,系统优化,评测平台

Harness Engineering实践,做了一个平台让AI一晚上自动评测和优化你的系统

作者搭建平台实现AI自动评测和优化系统

文章介绍了作者搭建的自动化评测和优化小平台,该平台基于AI First理念,让AI自主生成评测集、运行评测、生成报告并优化系统。平台具备创建评测任务、评测集和报告的能力。文中给出多个案例:基础自动化测评钉钉文档MCP,创建13个测试用例,最终评测得95分;UI测试绘报平台生成的PPT,评测5个项目得85分;系统自动优化业务系统的AI功能,三轮优化后分数从90.7分提升到99.1分。不过实现全自动化需系统UI规范、基础设施达标,且系统AI Coding含量高。

[京东技术] 数据库,MyBatis插件,AI结对编程

与AI结对编程,一路同行:一款数据库稳定性保障插件之AI设计开发结对编程实践之路

借助JoyCode进行数据库稳定性保障插件的设计开发实践

文章介绍了借助JoyCode进行数据库稳定性保障插件的AI设计开发结对编程实践。先阐述突发流量对应用和数据库的冲击,现有手段对数据库保护效果不佳,引出开发保护数据库插件的需求。接着详细设计插件,包括拦截SQL、查询阈值、处理策略等,JoyCode理解意图并完成设计文档。编码开发时,JoyCode完成基本框架。之后进行打磨优化,涉及代码风格、复杂度、分包、性能等方面,人工参与部分调整。还进行单元测试,更新设计文档,最后介绍插件接入运用。与JoyCode结对编程提升了研发效率。

[阿里云开发者] 数据库,向量检索,RaBitQ量化,pgvector

在 RDS PostgreSQL 中实现 RaBitQ 量化

阿里云在RDS PostgreSQL中引入RaBitQ量化提升向量检索性能

文章介绍在RDS PostgreSQL中实现RaBitQ量化以提升pgvector性能。大语言模型普及使向量检索成基础设施能力,pgvector能让用户在社区版pg中用向量存储和搜索功能。但数据量增大时,pgvector面临存储效率低、查询延迟长尾效应、向量插入性能劣化问题。向量量化可解决这些问题,RaBitQ是较好选择,有高压缩比、高效距离运算和理论误差界优势。文章还介绍其原理、与IVF-FLAT和HNSW结合方式,经测试,引入RaBitQ可提升查询性能、实现32倍压缩比。最后给出用SQL体验RaBitQ量化检索的步骤。

[梯度不陡] 数字员工,L0需求,交付链路,工程自动化

从工单到交付:数字员工开始承接一类 L0 需求

数字员工开始稳定承接一类L0需求交付链路

文章围绕数字员工承接L0需求展开。L0需求业务边界清晰、实现模式稳定,但工程动作耗时久。数字员工并非单纯写代码,而是接管从工单到交付的完整链路。适合的L0需求如UI微调、配置项增减等,不适合复杂业务等需求。要跑通链路,需明确前提条件、承接工程动作、做好质量控制、确保交付进入受控运行。此次实践验证了L0需求可被稳定承接,改变了交付执行主体,虽跑通但边界待拓展。

[阿里云开发者] Agent,架构设计,工程实践,上下文工程,工具设计

你不知道的 Agent:原理、架构与工程实践

文章分享Agent原理、架构与工程实践经验

文章围绕Agent架构展开,介绍影响工程效果的多方面内容。首先阐述Agent Loop基本运转,对比Workflow和Agent,介绍五种控制模式。指出Harness比模型更关键,其包含测试、验证与约束基础设施,决定系统稳定运行。上下文工程通过分层管理、压缩策略等保证稳定性。工具设计按ACI原则,影响Agent可做之事。记忆系统分四种记忆,跨会话需合理设计。逐步放开Agent自主度要补齐基础设施。多Agent组织要先解决隔离和协作,评测要考虑测试用例、评分标准等。追踪执行过程需记录关键信息,采用两层可观测性分工。最后以OpenClaw为例展示落地实现,强调工程细节的重要性,并列举常见反模式及解决办法。

[腾讯技术工程] AI工程化,知识沉淀,Harness Engineering

Harness不是目的,知识才是护城河 —— 一个AI工程交付团队的知识沉淀实践

AI工程交付团队分享知识沉淀实践经验

文章围绕AI工程交付团队的知识沉淀实践展开。2025年末至2026年初,Harness Engineering成热门话题,团队实践发现知识沉淀才是技术护城河。Harness核心要素含三支柱,知识管理是核心能力。工作流可替换,知识可累积且有复利效应。团队设计了知识分层架构,含五层存储、五种类型、三级成熟度及自动衰减机制。团队知识库采用独立Git仓库,明确三种角色、贡献模式和冲突解决策略。工作流各阶段与知识流动紧密关联,有三通道沉淀知识。知识按需消费,通过三级渐进式索引和查询预算实现。还引入Hapi内网版突破人机交互瓶颈,保障知识沉淀闭环完整。最后分享落地经验,包括历史项目冷启动、知识膨胀治理等,并对未来方向进行展望。

大模型 & AIGC 前沿

[腾讯研究院] AI,Token经济学,Token效率,AI普惠

让AI成为真正的社会生产力——跨越Token效率门槛走向AI普惠

腾讯探讨AI时代Token经济学,助力实现AI普惠

文章指出早期企业鼓励员工大量使用AI致Token消耗大,但转化为生产力存疑,引出Token经济学。Token形式主义陷阱使消耗与产出失衡,长远不利行业和公司。当下AI应从关注能否使用转向使用价值,提升Token效率可通过任务分级、给出价格信号、做好模型路由实现,同时需提升使用者AI素养。AI普惠将在个人、组织、社会三个层次推进,腾讯做混元模型铺全模型谱系。追求Token效率,让AI成新生产力,实现AI普惠是腾讯持续要解决的问题。

[阿里云云原生] AI,Skill管理,Skills Registry,阿里云

Skills Registry 公测开启:为企业打造私有的 Skill 管理中心

阿里云 MSE Skills Registry 公测,助力企业管理 AI Skill

阿里云微服务引擎 MSE 推出的 AI Registry 是全托管 AI 资产注册中心。企业 Skill 管理存在自研 Skill 散落、多人共用易误改、不敢用公开 Skill、迭代难验证回滚等问题。Skills Registry 可解决这些问题,它是面向企业的私有 Skill 仓库,具备零部署、可隔离、带审核、能回滚等能力,与公开市场各司其职。现在开启公测,企业可通过开通体验、上传 Skill、邀请同事使用参与,公测反馈会影响后续功能迭代。

[火山引擎] AI剧,火山引擎,Seedance2.0,工业化生产

巨日禄AI×火山引擎:Seedance2.0让量产"精品"成为可能

巨日禄AI接入火山引擎Seedance 2.0提升AI剧制作效率

巨日禄AI在AI剧领域成绩斐然,上线一年半非沙雕品类热门AI剧超70%市占率。但AI视频生成存在可用率低、人力消耗大等问题。接入火山引擎豆包视频生成模型Seedance 2.0后,精品AI剧制作效率提升近10倍,周期缩短,成本降低,可用率达90%以上。巨日禄AI将火山引擎多个模型嵌入其Agent,实现生产逻辑转变,Seedance 2.0提升成片质感,优化角色表现。同时,火山引擎的云基础设施提供算力与网络底座,安全创作能力贯穿链路。双方构建全栈式技术架构,助力AI剧行业长效健康发展。

[腾讯技术工程] 大模型,DeepSeek-V4,超长上下文,架构创新

读完这篇,你就搞懂 DeepSeek v4 了

DeepSeek团队发布并开源全新系列模型DeepSeek-V4

2026年4月24日,DeepSeek全新系列模型DeepSeek-V4预览版上线并开源,接近"闭源三巨头"水平。其纸面参数强大,Pro版1.6T参数,Flash版284B参数,都有1M上下文。该模型解决了超长上下文需求问题,如Agent多轮任务、整仓库级代码理解、长文档推理。传统Transformer架构难以适应1M上下文,DeepSeek V4在架构层面有创新,如mHC多流约束残差连接,解决标准残差的容量、路由和深度问题;CSA/HCA混合稀疏注意力机制,优化超长上下文计算量和显存消耗。还采用Muon优化器提升训练稳定性和收敛速度。Infra层面也有优化,包括计算通信重叠、使用TileLang开发算子、保证批无关性和计算确定性、FP4量化感知训练、优化训练和推理框架等,实现系统级闭环。

[WeaveFox和他的朋友们] 低代码平台,WeaveFox,应用开发

一个月,一群普通人,一些挺伟大的小事

WeaveFox公网版上线一月,普通人用其做应用且平台进化

一个月前WeaveFox公网版上线,一个月后呈现了使用者的成果。普通人用它做公益应用,让公益传播更远;浙大学生做校园导览应用,降低创作门槛;妈妈为女儿做口算app,激发孩子主动性。还有人做遛狗打卡社区、复刻古画人物对话应用等。同时,平台也在进化,具备数据存储、Skill市场上架、通知系统和创作者日历等功能。这些平凡之事成就伟大瞬间,还鼓励大家尝试用WeaveFox实现心中想法。

[阿里云云原生] AgentRun,CLI,Python SDK,Agentic AI

AgentRun CLI v0.1.0 正式开源:一行命令运行您的托管 Agent

阿里云开源 AgentRun CLI v0.1.0 并升级 Python SDK

阿里云 AgentRun CLI v0.1.0 正式开源,同时 AgentRun Python SDK 同步迭代。AgentRun 是一站式 Agentic AI 基础设施平台,有企业级、无厂商锁定优势,但开发者生态有差距。CLI 工具 ar 能让用户通过一条命令运行托管 Agent,有创建 Agent、幂等部署等核心能力。使用时需先完成一次性的云端授权,然后通过安装 CLI、配置访问凭证、运行 Agent 三步获取回复。CLI 还提供声明式 API 和统一操作语义,方便管理 Agent 资产。SDK 升级使超级 Agent 能在 Python 代码中完整定义,且 SDK 与 CLI 定位不同、互为补充。未来,AgentRun 将丰富能力矩阵、构建多 Agent 编排体系和评测链路。

[微软亚洲研究院] 大模型,多模态生成,具身智能,AI技术

ICLR上新 | 多模态生成与具身智能的前沿突破

微软亚洲研究院分享ICLR 2026多篇精选论文研究成果

4月23-27日ICLR会议将在巴西举行,微软亚洲研究院分享入选的精选论文。AdAEM提出自适应测量框架,解决大语言模型价值观评估问题;Aurelius构建语料库,提升文本到音频生成关系建模能力;BAR提出新范式,提升自回归视觉生成性能;基于上下文学习的数据选择框架,高效筛选大模型微调数据;TileLang降低GPU深度学习算子开发复杂度;TwinVLA实现数据高效的双手机器人操作;VidGuard-R1检测AI生成视频并给出解释;villa-X增强VLA模型潜在动作建模;VisCodex融合视觉与编码模型实现多模态代码生成。

工程效率 & 工具链

[阿里云云原生] JetBrains插件,Markdown,prompt编写

对话窗口太小、爬楼查看历史对话?Qoder 支持一键切换 Markdown 编写 Prompt

Qoder JetBrains 插件 0.16.1 支持一键切换 Markdown 写 prompt

最近,Qoder JetBrains 插件 0.16.1 率先支持一键切换 Markdown 编写 prompt。使用独立的 qoder.amd 文档编写有诸多好处,包括提升编辑体验,可在专用文件中编写长提示词;增强编辑与转换能力,能进行内容补全、格式转换等;简化上下文引入方式,可拖拽文件或代码片段嵌入;实现交互历史可视化,文件可记录完整对话;方便版本管理与扩展,文件可纳入 Git 版本控制,未来还能扩展更多功能。

前端开发与工程化

[京东零售技术] 前端开发,Taro框架,跨端开发,iOS渲染,TaroUI

【Taro 5.0 技术与实践】 - 高性能 iOS 渲染层与 TaroUI 跨端框架

Taro 5.0推出高性能iOS渲染层与TaroUI跨端框架

文章围绕Taro 5.0展开,介绍高性能iOS渲染层与TaroUI跨端框架。Taro跨端生态欲实现"一码五端",但现有跨端方案无法满足诉求。iOS渲染层采用双线程渲染管线和视图容器/运行时分离架构,实现原生View+图层混合渲染,优化渲染管线,自研高性能富文本引擎,具备完备渲染能力。TaroUI以C++为核心,打造跨端组件架构,提供标准化组件和API,有C++与原生双层组件系统,具备触摸/事件系统、渲染管线调度等能力,还有高性能虚拟列表组件和可扩展性设计。Taro框架已在多业务落地,未来愿景是沉淀通用UI基础设施,2026年将持续支持核心业务,探索新场景,进行性能优化、拓展能力边界和建设跨端生态。

后端与云原生架构

[阿里云云原生] Cloud Native,Kubernetes,HiClaw

HiClaw 发布 v1.1.0,提供 Kubernetes 集群部署实现,支持 Hermes Worker 运行时

HiClaw发布v1.1.0版本,新增功能并修复多项Bug

HiClaw发布v1.1.0版本,新增11项功能、修复18个Bug,感谢9位贡献者。新增功能包括支持Kubernetes原生架构,可运行在Kubernetes控制平面上;支持Hermes Worker运行时,具备自主编程能力;提供企业级Kubernetes部署Helm Chart,有高可用、多租户等特性;还有可插拔网关与存储Provider、多容器架构等。镜像瘦身约1.7GB,支持省时迁移、内置HiClaw CLI等。Bug修复涉及令牌轮转、YOLO模式传播、默认模型设置等多方面问题。

其他

[腾讯研究院] AI,就业冲击,人类配额制,UBI

是时候讨论"人类配额制"了:应对AI就业冲击的一种可能性探讨

腾讯研究院刘金松探讨应对AI就业冲击的"人类配额制"

文章指出当下AI对就业的替代在多领域切实发生,如基础编程、客服、翻译等。以影视群演为例,AI介入使群演市场供需逆转,劳动定价权转移。AI替代速度快,新旧岗位过渡存在人群、区域和时间差。面对潜在危机,OpenAI创始人等主张UBI等方案,但存在问题。文章提出"人类配额制",即通过法律规定行业保留一定比例人类岗位,其有现实参照,如残疾人就业配额制和奢侈品配货制度。与UBI相比,"人类配额制"能保障人的主体性。这是"以人为本"应对就业问题的探索,值得讨论。

国外技术

Google / Google DeepMind

Gemma 4 & April AI Updates

May 4, 2026|https://blog.google/innovation-and-ai/technology/ai/google-ai-updates-april-2026/
Google 4月AI更新汇总,重点包括 Gemma 4(强调为“byte for byte, the most capable open models”)、Gemini Enterprise Agent Platform、Deep Research Max 等工具,以及 Cloud Next ‘26 相关进展。

Announcing our partnership with the Republic of Korea

April 27, 2026|https://deepmind.google/blog/announcing-our-partnership-with-the-republic-of-korea/
Google DeepMind 与韩国 MSIT 合作建立 AI Campus,推动科学突破、人才培养和生命科学、气候等领域创新。

Decoupled DiLoCo & AI co-clinician

April 2026(近期)|https://deepmind.google/blog/
分布式训练新方法(Decoupled DiLoCo)和医疗 AI co-clinician 模型相关发布。

Meta

本周暂无重大新博客发布(4月8日前后有 Scaling How We Build and Test Our Most Advanced AI 及 SAM 3.1 等,属于上周前)。工程博客聚焦容量效率、后量子密码等持续工作,但4月27日后未见突出新帖。

OpenAI

Our principles

April 27, 2026|https://openai.com/news/
发布公司运营原则,强调迭代部署、AI 服务人类、社会应对各能力水平 AI 等。

The next phase of the Microsoft OpenAI partnership / Symphony

April 27, 2026|https://openai.com/news/
推进与 Microsoft 合作阶段,发布开源编排规范 Symphony。

OpenAI models, Codex, and Managed Agents come to AWS / Advanced Account Security / Community Safety

April 28–May 4, 2026|https://openai.com/news/
AWS 集成、账户安全加强及社区安全承诺更新。

Anthropic

How people ask Claude for personal guidance

April 30, 2026|https://www.anthropic.com/research
Societal Impacts 研究:用户如何向 Claude 寻求个人指导。

Evaluating Claude’s bioinformatics research capabilities with BioMysteryBench

April 29, 2026|https://www.anthropic.com/research
Science 领域评估 Claude 在生物信息学研究中的能力。

(另有4月27-28日区域/合作公告,如澳大利亚办公室等,非核心技术博客)。

xAI

本周暂无公开官方博客新发布。相关新闻多为法律/运营事项(如诉讼),未见技术模型或研究博客更新。

Microsoft

Unlocking human ambition to drive business growth with AI

April 28, 2026|https://blogs.microsoft.com/blog/2026/04/28/unlocking-human-ambition-to-drive-business-growth-with-ai/
讨论 AI 如何释放人类雄心并推动业务增长。

Search Moments: Turning Intent into Action

April 27, 2026|https://about.ads.microsoft.com/...
AI Search 如何将发现转化为决策。

(Research 博客有 New Future of Work 等稍早内容持续影响)。

Apple

本周暂无新博客(ICLR 2026 相关展示主要在4月22日前后发布,包括 ParaRNN 等论文)。

论文:AI x SE

多智能体与协作系统

协作式智能体推理工程(CARE):融合领域专家、开发者和助手的AI智能体系统化设计方法论

2026-04-30 · cs.AI · arXiv

本文提出协作式智能体推理工程(CARE),这是一种面向科学领域LLM智能体工程的规范化方法论。与随意的试错方法不同,CARE通过可复用构件和系统化阶段门控来指定行为、基础、工具编排和验证。该方法采用涉及领域专家、开发者和LLM辅助智能体的三方工作流。这些辅助智能体作为形式化验证器,帮助检测规范中的不一致性并验证智能体行为。

基于LLM立场检测的提示与多智能体方法系统对比

2026-04-29 · cs.CL · arXiv

立场检测识别文本作者对给定目标的态度。现有研究在数据划分、基础模型和评估协议上存在差异,难以公平比较。本文进行系统性对比,评估两个类别中的五种方法:基于提示的推理(直接提示、Auto-CoT、StSQA)和基于智能体的辩论(COLA、Multi-Agent)。

OS-SPEAR:操作系统智能体的安全、性能、效率和鲁棒性分析工具包

2026-04-27 · cs.CL · arXiv

多模态大语言模型的演进将焦点从文本生成转向主动行为执行,特别是通过操作系统智能体导航复杂GUI。然而,这些智能体向可信日常伙伴的转变受到缺乏安全、效率和多模态鲁棒性严格评估的阻碍。OS-SPEAR填补了这一空白,提供全面的基准测试和评估工具。

从独白到广场:基于去中心化辩论的记忆增强LLM智能体优化建模

2026-04-28 · cs.AI · arXiv

优化建模支撑着物流、制造、能源和公共服务中的现实世界决策,但从自然语言需求可靠地解决此类问题对当前大语言模型仍具挑战性。本文提出Agora-Opt,一个结合去中心化辩论与读写记忆银行的模块化智能体优化建模框架。Agora-Opt允许多个智能体团队独立生成端到端解决方案并通过辩论达成共识。

递归式多智能体系统

2026-04-28 · cs.AI · arXiv

递归或循环语言模型作为新的扩展轴出现,通过在潜在状态上迭代细化相同模型计算来深化推理。本文将这种扩展原则从单个模型扩展到多智能体系统:能否通过递归实现智能体协作的扩展?为此,引入RecursiveMAS,一个将整个系统转换为统一潜在空间递归计算的多智能体框架。

OxyGent:通过Oxy抽象实现模块化、可观测、可演进的多智能体系统

2026-04-28 · cs.AI · arXiv

在复杂工业环境中部署生产级多智能体系统(MAS)仍具挑战性,受限于可扩展性、可观测性和自主演化的局限。本文提出OxyGent,一个通过统一Oxy抽象实现模块化、可观测、可演进MAS的开源框架,其中智能体、工具、LLM和推理流被封装为可插拔的原子组件。

Agent架构与执行系统

基于知识图谱的LLM政策合规推理表示

2026-04-30 · cs.AI · arXiv

随着AI功能快速集成到软件应用中,其带来的风险日益增加。本文提出一个智能体框架,从AI政策文档中构建知识图谱(KG),并检索政策相关信息来回答问题。在两种本体模式下的三个AI风险相关政策上构建知识图谱,然后在42个政策问答任务上评估五个LLM,涵盖六个风险类别。

探索LLM智能体在科学可视化中的交互范式

2026-04-30 · cs.AI · arXiv

本文研究不同类型的大语言模型智能体在科学可视化任务上的表现,对比三种主要交互范式:带结构化工具使用的领域专用智能体、计算机使用智能体和通用编码智能体。通过在15个基准任务上评估八个代表性智能体,测量可视化质量、效率、鲁棒性等指标,为科学可视化场景下的智能体设计提供系统化指导。

重新思考大语言模型中的智能体强化学习

2026-04-30 · cs.AI · arXiv

传统强化学习专注于训练专用智能体在狭义定义的环境中优化预定义的奖励函数。然而,强大LLM的出现和日益复杂的开放式任务催化了强化学习向智能体范式的转变。这一新兴框架强调开发能够进行目标设定、长期规划、动态策略调整的自主智能体,超越了传统强化学习的边界。

ADEMA:LLM智能体长时知识合成的知识态编排架构

2026-04-28 · cs.AI · arXiv

长时LLM任务失败往往不是因为无法获得单一答案,而是因为知识状态在多轮中漂移、中间承诺保持隐含、中断会破坏演进中的证据链。本文提出ADEMA作为长时知识合成的知识态编排架构,而非通用多智能体运行时。该架构结合显式认知记账、异构双评估器治理和自适应任务分解。

CastFlow:面向时序预测的角色专用智能体工作流学习

2026-04-30 · cs.LG · arXiv

大语言模型在时序预测中展现出巨大潜力,但现有基于LLM的预测方法仍遵循静态生成范式,在单次传递中直接将历史观测映射到未来值。这种范式受到时序模式提取有限、上下文特征单轮获取、一次性预测生成和集成预测支持缺失等限制。CastFlow提出角色专用智能体工作流来解决这些问题。

桥接价值与行为:主动具身智能体的层级框架

2026-04-30 · cs.AI · arXiv

当前具身智能体通常局限于被动指令跟随或反应性需求满足,缺乏对长期、自导向行为和解决动机冲突至关重要的高阶价值框架。本文引入ValuePlanner,一种将高层价值调度与低层动作执行解耦的层级认知架构。ValuePlanner采用基于LLM的认知模块,通过抽象推理生成符号子目标。

弹性视觉智能体的架构模式语言

2026-04-30 · cs.AI · arXiv

将多模态基础模型集成到企业生态系统带来根本性的软件架构挑战。架构师必须平衡竞争性的质量属性:VLA模型的高延迟和非确定性,与企业控制回路所需的严格确定性和实时性能之间的矛盾。本文提出一种视觉智能体架构模式语言,将快速确定性反射与慢速概率超思维分离。

GLM-5V-Turbo:面向多模态智能体的原生基础模型

2026-04-29 · cs.CV · arXiv

本文提出GLM-5V-Turbo,这是迈向多模态智能体原生基础模型的一步。随着基础模型越来越多地部署在真实环境中,智能体能力不仅取决于语言推理,还取决于在图像、视频、网页、文档、GUI等异构上下文中感知、解释和行动的能力。GLM-5V-Turbo围绕这一目标构建:将多模态感知整合为推理、规划、工具使用和执行的核心组件。

语言模型智能体临床关注轨迹建模

2026-04-30 · cs.AI · arXiv

部署在临床环境中的LLM智能体通常表现出突然的、阈值驱动的行为,在升级前对累积风险几乎没有可见性。然而,在现实护理中,临床医生是根据逐渐上升的关注而非瞬时触发来行动的。本文研究显式状态动态是否能暴露此类升级前信号,而不将临床权限委托给智能体。

代码智能与软件工程自动化

(暂无本周相关论文)

任务规划与推理

DPEPO:基于LLM智能体的多样性并行探索策略优化

2026-04-27 · cs.CL · arXiv

遵循"先推理后行动"范式的LLM智能体在许多复杂任务中取得了优异性能。然而,这些方法受到有限探索和对环境理解不完整的限制,因为每步只与单个环境交互。本文引入一种新范式,使智能体能够同时与多个环境交互并共享跨轨迹经验,从而显著提升探索效率和环境理解能力。

LLM作为ASP程序员:自校正实现任务无关的非单调推理

2026-04-30 · cs.AI · arXiv

近期大语言模型取得了令人印象深刻的推理里程碑,但在高复杂度问题上仍与高计算成本、逻辑不一致和性能急剧下降作斗争。神经符号方法试图通过将LLM与符号推理器耦合来缓解这些问题,但现有方法通常依赖单调逻辑,无法表示可废止推理——人类认知的基本组成部分。本文提出LLM+ASP框架。

LLM-Flax:基于神经符号方法的大语言模型可泛化机器人任务规划

2026-04-29 · cs.RO · arXiv

当前在新区域部署神经符号任务规划器需要大量手动工作:领域专家必须编写松弛和互补规则,必须解决数百个训练问题来监督图神经网络目标评分器。本文提出LLM-Flax,一个三阶段框架,仅给定PDDL域文件即可消除所有三个手动工作量,使用本地托管的LLM自动生成规则。

记忆与知识管理

OCR-Memory:面向长时智能体记忆的光学上下文检索

2026-04-29 · cs.CL · arXiv

自主LLM智能体越来越多地在长时、交互式环境中运作,成功取决于重用随扩展历史积累的经验。然而,现有智能体记忆系统受文本上下文预算的根本限制:存储或重温原始轨迹的令牌成本过高,而摘要和纯文本检索则以信息丢失和碎片化证据换取令牌节省。本文提出光学上下文检索来解决这一局限。

大模型训练与对齐

RHyVE:LLM生成奖励假设的能力感知验证与阶段感知部署

2026-04-30 · cs.AI · arXiv

大语言模型使强化学习中的奖励设计大幅可扩展,但生成的奖励并非自动可靠的训练目标。现有工作主要专注于生成、演化或选择奖励候选,而较少关注这些候选在策略优化过程中何时可以被验证和部署。本文将生成的奖励视为奖励假设,其效用取决于当前策略的能力水平,并研究部署时问题。

其他应用

FoodBench-QA 2026食谱营养估计:传统方法与LLM方法系统对比

2026-04-28 · cs.CL · arXiv

从非结构化食谱文本进行准确营养估计是饮食监测中的一个重要但具有挑战性的问题,原因是食材术语模糊和数量表达高度可变。本文系统评估了从词法匹配方法(TF-IDF与岭回归)到深度语义编码器(DeBERTa-v3)再到大语言模型生成式推理等广泛表示能力范围的模型。