Signal #9:模型更新仍然重要,但不再是唯一主角
这一周,GPT-5.5 和 DeepSeek V4 先后出现,表面看仍然是熟悉的模型竞赛:更强的代码能力、更长的上下文、更低的成本、更好的 Agent 适配。
但另一个变化也越来越明显:模型能力当然还在提升,却很难再像早期那样,仅靠一次模型发布就重新定义所有人的使用体验。真正决定 AI Coding 能不能进入研发现场的,正在变成另一组问题:模型是否能稳定接入工具,是否能消化足够上下文,是否能持续执行任务,是否能进入评审、验证和组织流程。
换句话说,模型仍然是底座,但不再是唯一主角。
AI Coding 的竞争,正在从“谁的模型更强”,逐渐转向“谁能把模型组织成一个可持续运行的研发系统”。

局中局!给 Agent 装上 OpenViking,它们竟然学会了“记仇”和“伪装”?
OpenViking赋能VikingBot,实现多智能体博弈记忆沉淀
文章围绕OpenViking和VikingBot展开。OpenViking为集体智能提供上下文管理,让Agent拥有可追溯记忆。通过6个VikingBot模拟狼人杀对战,展示其能沉淀群聊信息,使Bot记住玩家过往行为。多轮对局中,Bot借助记忆实现“记仇”“伪装”等,胜率随局数增加上升。OpenViking具备高效记忆管理能力,采用三层结构和渐进式检索,抽取11种记忆类型,使用增量更新机制和语义化命名。VikingBot有深度集成OpenViking、强大网关、多渠道接入等核心能力,实现记忆智能提交与渐进式记忆检索,提升Agent准确率并降低Token消耗。它还基于OpenViking多租户能力保障数据安全,给出多业务线和个人助手场景应用示例。最后提供VikingBot安装教程和狼人杀Demo启动方法,呼吁共建Agent上下文未来。

得物实现AI驱动E2E测试方案并展望后续优化
文章介绍了得物基于AI驱动,从运营行为到自动化用例的智能化实践。项目背景是业务增长对质量保障提出更高要求,需升级测试模式。对比传统E2E和AI E2E,选用AI E2E方案,并选Midscene工具。流程设计分四阶段:智能用例生成、灵活执行触发、AI驱动执行、平台化数据运营。技术亮点包括基于运营行为生成用例、用Midscene+Qwen2.5-VL-72B执行、精准UI交互测试及以代码覆盖率为硬指标。平台实现整体数据看板和用例详情视图。未来将优化AI模型,推动平台标准化、智能化。

作者从第一性原理推导 Agentic Engineering 最佳实践并介绍框架
文章从第一性原理出发,探讨了 Agentic Engineering。软件工程存在信息损耗、知识孤岛等固有挑战,AI 虽带来改善但也引入新问题。AI 对软件工程的价值分三层,文章聚焦 L2 和 L3 级别。通过三条公理推导,审视业界假设,得出六条最佳实践:构建上下文供给系统、基于知识不对称分工、AI 全链条参与、小任务推进与多层次验证、工程化治理团队知识、从错误构建反馈闭环。还介绍了基于 Skill 的框架,最后指出软件工程师可往编排 AI 或上游发展,并给出行动建议。
Unity中国发布 AI OS 3D 空间智能座舱,加速驶入智能体时代
Unity中国发布AI OS 3D空间智能座舱助力智能体时代
4月24日,Unity中国在2026北京国际车展发布AI OS 3D空间智能座舱。当前智能座舱竞争格局变化,需新底座,传统3D HMI无法融合承接AI多模态输出。AI OS围绕人、车、环境融合建立智能体服务架构,在数据、服务、呈现层面进行革新,带来连贯3D空间体验。架构上AI能力与空间体验解耦,车企掌握核心AI能力。超85%智能电动车厂用Unity或团结引擎,合作厂增多,适配主流车载SoC和操作系统。Unity中国还展示运行演示,未来将深化合作推动智能座舱升级。

SOAR 周冠军笔记 06| FlashSALA:Marlin GEMM 内核调优与 W4A16 推理优化实践
李晓辰分享Marlin GEMM内核调优及W4A16推理优化实践
本周SOAR 2026周赛中,FlashSALA凭对Marlin内核的系统性调优获周冠军。Marlin是SGLang用于W4A16 GPTQ量化推理的核心GEMM内核,默认线程配置未针对具体矩阵形状做细粒度适配。作者对流水线深度、线程块数量等参数实验探索,将tile选择分多档位,为不同M×N组合找到最优配置。还优化decode阶段atomic_add路径,修改判定逻辑消除不必要同步开销。最后作者感谢组委会和团队,鼓励大家参赛。
从可观测到可理解:用 UModel 构建 Agent 原生的代码知识图谱
阿里云团队用 UModel 构建 Agent 原生代码知识图谱
文章围绕用 UModel 构建 Agent 原生的代码知识图谱展开。首先指出当前 AI Agent 理解代码存在问题,现有流派面对复杂问题时难以有效工作。接着介绍代码理解的五种范式,包括 Agentic Search、CodeIndex、Code Graph + RAG 混合、CodeWiki 和代码知识图谱,分析各范式优缺点。然后阐述 UModel 构建代码知识图谱的方法,涵盖从个人 Wiki 到代码 Wiki 的范式转变、Entity+Log+Link 建模、跨域关联、技术架构、Agent 交互层等方面。最后通过实战案例展示其应用,并对未来进行展望,如全方位数字化评测、Agent 自主维护、架构守护门禁等,推动 AI 原生软件工程发展。

Ontological Engineering:基于PolarDB-PG智能本体引擎实现“数据驱动”到“决策中心”
阿里云基于PolarDB - PG推出智能本体引擎助力企业决策
文章介绍PolarDB - PG智能本体引擎,助力企业从“数据驱动”到“决策中心”。Ontology在AI领域是对现实世界抽象,能让数据与业务建立连接。企业引入Agent面临语义模糊、逻辑幻觉等挑战,PolarDB - PG嵌入智能本体引擎应对。其采用三层架构,有对象、链接、动作三大核心要素,提出OAG检索范式。平台通用轻量低成本,具备LLM驱动自动建模、细粒度权限治理等能力。通过Skill实现业务建模到Agent执行的闭环。实战案例展示其在供应链分析决策的高效,还适用于自动驾驶、高端制造、精准营销等场景,目标是让企业拥有“Palantir Lite”。

CORPUS2SKILL上线,革新企业知识库导航模式
文章介绍企业知识库Skill,指出传统RAG有“结构性盲区”,Agentic RAG和层次化方法也有局限。CORPUS2SKILL采用“离线编译,在线导航”架构,编译阶段构建多层级主题树、生成路由式摘要并物化文件系统,实现渐进式披露;服务阶段Agent可定向回溯和跨分支综合。在WixQA企业客服基准测试中表现优,但成本高,未来可通过增量编译和Prompt缓存削减成本。

苹果刚开源 swift-profile-recorder!一个 curl 就能给 Swift 服务端拉火焰图
苹果开源 swift - profile - recorder 助力 Swift 服务端性能分析
作者上周排查 Swift 写的 API 服务性能问题时工具受限浪费时间,后得知苹果开源了 swift - profile - recorder。该工具是进程内分析器,以 Swift Package 形式嵌入服务端应用,零系统权限,macOS 和 Linux 都能跑。它把采样逻辑做进进程内部,苹果用其诊断性能回归和收集 CPU 热点趋势。文章介绍了集成方法、采样方式,还对比了与 swift - parca 的区别,作者打算在 Lambda 服务上试用,最后邀读者交流性能分析方式。

深入源码:Hermes Agent 如何实现 "Self-Improving"
文章深入解析 Hermes Agent 自我进化机制及 RDSHermes 应用
文章深入剖析 Hermes Agent 实现 'Self-Improving' 的机制。Hermes Agent 在 OpenRouter 排行榜表现出色,与 OpenClaw 有设计哲学差异。其学习闭环由 Memory、Skill、Nudge Engine 三个子系统构成。Memory 用两个文本文件存储信息,有容量限制,通过冻结快照和提示词引导管理;Skill 存储操作步骤,能自动创建和自我修补,采用渐进式加载;Nudge Engine 定时提醒 Agent 学习。通过 K8s 部署案例展示三个子系统协同过程。Hermes 还有安全防护机制。未来 Skill 可在生命周期管理、技能组合等方面发展。RDSHermes 降低使用门槛,让团队成员都能使用,现已上线阿里云 RDS AI 应用市场。

AST 驱动的 MCP 代码上下文服务在 AI Code Review 中的实践
基于AST构建MCP服务用于AI代码审查实践
文章介绍了AST驱动的MCP代码上下文服务在AI Code Review中的实践。因主流AI代码审查方案依赖Git Diff,缺少上下文致模型判断易失真,故搭建以AST代码解析技术为核心、MCP服务为调度与接口层的方案。系统后端分三层,采用松耦合设计。核心技术选用MCP协议和Eclipse JDT实现AST解析。MCP服务按模块拆分,介绍了接口参数、提示词等。代码上下文结构设计考虑信息取舍与传递方式,采用统一上下文接口。通过空指针和多线程用例验证了补充AST上下文可提升审查准确性。该方案能缓解上下文不足问题,后续将围绕多语言支持等完善。

面试官:“Harness Engineering 到底是什么?你的项目用了吗?”
作者系统梳理Harness Engineering核心概念及工程方法
文章围绕Harness Engineering展开,先因读者实习面试被问引出该概念。介绍其核心概念,指出Agent = Model + Harness,Harness是模型外的一切,与Prompt/Context Engineering是嵌套关系,包含记忆、执行等组件。进阶部分提到成熟Harness有六层架构,瓶颈不在模型而在Harness,上下文利用率超40% Agent会变蠢。还给出从零搭建Harness的行动清单,分P0、P1、P2优先级。最后整理面试要点,提及该领域未解问题,如棕地项目改造等,强调Harness决定系统底线。
任务自适应 Harness:从 Trace 到多 Coding Agent 的协作记忆
作者提出Task - Adaptive Harness用于多Agent协作记忆
作者在Thoughtworks准备的AI Coding端到端方案未在客户项目落地,后在Routa项目找到新落点。基于ACP协议的Agent Trace可记录Agent执行过程,其价值在于让协作历史成为可分析复用的数据。作者先通过Feature Explorer构建需求和Session的关联,形成Trace Learning雏形。Kanban中存在冷启动浪费问题,由此提出Task - Adaptive Harness机制,其核心原则是上下文由任务决定、判断基于证据、约束在执行前生效。Routa的实现是一种分层协作记忆,回答了任务开始、边界形成、工作交接和经验留存的问题,最终目标是让前面的人做过的事被后面的人接住。

万字干货!Harness Engineering如何工程化落地?
作者以JK Launcher为例详述Harness Engineering工程化落地方法
文章围绕Harness Engineering工程化落地展开,以JK Launcher项目为例,详细阐述搭建流程。先厘清Rule、MCP、Skill等核心概念,强调Harness是让AI稳定产出正确结果的工程系统。接着介绍从设计规格文档入手,逐步添加规则、技能等。随着需求变复杂,从单Agent转向结构化多Agent,将研发流程拆成固定角色和阶段。在落地过程中不断解决下游改文档、PM越界等问题,补全流程定义文件等。总验证脚本成为关键基础设施,提供反馈闭环。还介绍dev - map和任务看板为AI提供项目级上下文,指出Memory在团队级Harness中非主干。最后探讨人和AI关系,人负责设计系统,AI执行,后续可从规则脚本化、流程产品化等方向发展。

Claude Code 省 Token 终极指南:同样干活,3k 和 30k 的差距藏在这些细节里
Claude Code省Token指南,揭秘3k与30k差距细节
本文是Claude Code省Token终极指南,聚焦四大核心问题。一是明确Token消耗点,介绍一次对话input的构成,如系统侧、历史侧等,还提及Prompt Cache省成本技巧及看懂<font style="color:#000000;background-color:rgb(38, 38, 38);">/cost</font>输出定位浪费点。二是指出输入内容方式的坑,像直接贴大段非结构化文本、开放式提问、多轮对话挤牙膏、清空缓存等都会浪费Token。三是介绍Claude干活方式的坑与技巧,如Read整文件比Grep精确定位耗Token多,大需求用plan mode,用subagent外包脏活,合理使用<font style="color:#000000;background-color:rgb(38, 38, 38);">/compact</font>和<font style="color:#000000;background-color:rgb(38, 38, 38);">/clear</font>。四是揭示基础设施的隐形陷阱,包括未屏蔽构建产物、MCP和Skills入场费高、CLAUDE.md写法错误等。

AI实践|基于 Spring AI 从0到1构建 AI Agent
作者基于Spring AI构建含多核心能力的AI Agent项目
本文作者分享基于Spring AI从0到1构建AI Agent的实践。项目为学习用途的Demo,集成RAG、Function Calling等核心能力。文章从六个核心模块剖析架构与实现:1. AgentCore是核心编排器,负责对话流程编排,含意图识别、记忆管理等,其ChatMemory有三层上下文压缩策略。2. Tool机制设计了可插拔工具注册机制,LLM决策调用工具。3. RAG模块有完整流水线,提供多种分块策略,采用多路召回和RRF融合方案。4. Command和Skill是不同的Prompt模板机制,前者用户主动调用,后者LLM自主调用。5. SubAgent有独立记忆,其生命周期由主LLM驱动。6. MCP实现了Server和Client,可对外暴露和连接外部服务。

一键开启 Hermes Agent 可观测:成本归因、性能拆解与稳定性治理
火山引擎为Hermes Agent构建可观测能力并提供一键部署方案
文章介绍火山引擎日志服务为Hermes Agent构建可观测能力的过程。此前Hermes原生观测有局限,如日志无统一结构、状态数据库查询难且未覆盖关键维度,导致Token成本无归因、性能瓶颈难区分、故障归因缺数据等问题。构建的可观测体系包括成本归因、性能拆解、稳定性监控、链路追踪四个维度。还介绍了观测看板设计,按排障思路编排板块。最后说明一键启用流程,含鉴权选型、部署准备、安装、验证等,后续会在模型工具选型、异常检测自动化、Trace数据利用等方面持续投入。
测试开发以两种视角结合AI完成保单平台查询记录功能
文章是测开视角的AI实战手记。作者面临保单指挥中心平台查询记录功能迭代需求,用两种视角开展开发。视角A是有代码能力者,给AI架构和需求,让其出方案和代码,自己负责判断决策;视角B代码能力有限者,用业务语言提需求,让AI找技术方案,自己负责需求翻译和验收判断。AI给出架构设计、代码实现。功能上线后成果好,具高性能、易扩展等优势。作者认为测试开发有测试思维和质量把控优势,应与AI协作,不同代码能力者都能找到路径交付价值,还提醒要对AI保持热爱与敬畏。
数据孤岛难打通、权限怕失控?DBW 助“小龙虾”落地最后一公里
DBW for ArkClaw助力“龙虾”应用解决企业级落地难题
“龙虾”应用走向企业级应用时面临诸多挑战,如数据孤岛难打通、权限管控失控、黑盒操作难追溯、精准理解度待提高等。DBW for ArkClaw 是解决这些难题的企业级方案。它提供统一的数据服务纳管能力,简化网络拓扑与运维;具备细粒度权限管控和全链路 SQL 安全规则体系,保障数据安全;依托大模型增强数据库元数据,助“龙虾”精准理解数据逻辑,还支持多种数据库纳管、权限配置、自然语言提问等功能,其 Skills 有慢查询诊断等多种能力。ArkClaw 与 DBW 融合,可助企业构建“龙虾”应用。

WasmGC 是什么?为什么它对 Flutter 和 CMP 在 Web 领域很重要?
WasmGC推动WebAssembly发展,提升产品可用性
文章介绍了WasmGC对WebAssembly发展的重要性。起初WebAssembly无GC概念,第三方语言适配时对GC呼声渐高。此前Flutter和CMP在Web端Wasm产物体积大、GC效率低、易内存泄漏。引入WasmGC后,Wasm代码可复用宿主环境GC,定义了新类型,解决了影子栈和循环引用问题。其使Kotlin/Wasm和Flutter/Wasm产品可用性提升,互操作性增强。最后回顾了WasmGC标准化和实现周期,指出它推动了Wasm流行,让WebAssembly迎来春天。
从写清 Spec 到看懂功能:在 Session 历史中使用 Routa 重建需求全景
作者探讨用Routa在Session历史中重建需求全景
文章围绕在Session历史中使用Routa重建需求全景展开。Spec虽为AI Coding主入口,负责定义需求起点,但不保存演化过程。Agent的Session记录了大量信息,却按会话组织,难以追踪功能长期演化。Feature Explorer先恢复功能边界,通过文件和接口确定当前功能涉及的页面、API和文件;再收拢历史证据,将相关历史整理成可检查的上下文。最后让Agent基于重组后的工程证据进行分析,以确保项目的整体性和可持续演化。

阿里云为具身智能打造全域可观测运维解决方案
北京一场半程马拉松赛中,300多台人形机器人与人类同场竞技,这是具身智能的规模化公开压力测试,赛后也凸显了运维难题。具身智能运维面临环境不确定、设备高度集成隐患及传统运维模式不适配等挑战。阿里云依托全域可观测能力打造协同运维观测体系。该体系采用云边协同数据采集,有两种部署模式;构建全域全维度可观测体系,覆盖硬件、业务算法、场景环境层面;进行多数据联动分析,开展预测性运维;还建立分级闭环应急体系,保障复杂场景运行。这一方案为具身智能全行业户外场景提供了可复制的运维框架,助力产业商业落地。

做 iOS 开发必须用这 13 个 iOS 宝藏项目,个个都是真香现场
作者分享13个iOS开发宝藏项目及适用场景
文章推荐13个iOS宝藏项目。开发库方面,mlx - swift - lm可在iOS或macOS加载开源大模型,适用于端侧AI App等;realm - swift提供现代移动数据库方案,适合复杂本地存储App;CocoaLumberjack是成熟日志框架,用于正经日志管理;OHHTTPStubs可拦截HTTP请求,用于测试等。开发工具方面,Stats监控macOS状态;SwiftLint规范Swift代码;IINA是macOS视频播放器;Ice管理菜单栏图标;Signal - iOS是端到端加密通讯App,可作大型iOS工程学习范例。

Jetpack Compose 1.11 正式版发布,下一代的全新控件和样式 API,你必须知道
Jetpack Compose 1.11正式版发布,带来全新控件和样式API
Jetpack Compose 1.11正式版发布,补齐三大短板,明确发展方向。推出全新experimental基础Styles API,解决自定义问题,为非Material设计系统铺路;提供Grid和FlexBox API,分别用于二维布局和一维弹性布局,补齐布局体系;MediaQuery API统一环境入口,适配高频变化;新的SlotTable优化结构性变更成本。此外,还有共享元素调试、触控板事件改进、预览包装器等更新,同时弃用部分功能。

写 HTML 就能做视频?HeyGen 开源的这个工具有点意思
HeyGen 开源 HyperFrames 框架,用代码做视频
HeyGen 开源 HyperFrames 框架,可通过 HTML、CSS 和 GSAP 制作视频。相比传统视频制作工具,它以代码形式管理,便于团队协作和修改。该框架为四层架构,采用 Seek-and-Capture 循环,通过 Chrome DevTools Protocol 捕获帧,支持多种动画库接入。音频处理独立,可并行渲染,能保证输出确定性。其核心概念包括时间轴声明、GSAP 动画和字幕同步。虽无法实现电影级特效,但适用于前端开发者制作产品介绍、数据可视化等视频。

Rsbuild 2.0 发布:即将支持 TanStack Start
Rsbuild团队发布2.0版本,将支持TanStack Start
Rsbuild团队宣布Rsbuild 2.0正式发布。Rsbuild是由Rspack驱动的Web应用构建工具,1.0发布后npm周下载量增长超15倍。2.0版本投入三个月验证打磨,多个上层工具已完成升级。其改进包括新特性,如升级Rspack 2.0、支持React Server Components、开发服务器与客户端通信等;更轻量,默认依赖从13个减到4个;更安全,默认仅监听'localhost';更现代,如采用Pure ESM包、更新默认目标环境、默认输出ESM Node.js产物、更新装饰器版本等。多数项目升级平滑,可借助rsbuild-v2-upgrade skill协助,还感谢了社区贡献者与用户。

Rspack团队发布2.0版本,带来性能及功能多项升级
Rspack 2.0正式发布。回顾1.x,其实现webpack核心能力和插件API,达成10倍构建性能提升目标,周下载量从10万增至500万,还打造了Rstack工具链,融入JavaScript生态。2.0在保持webpack生态兼容下,引入现代开发默认行为等。亮点包括性能提升,构建提速约10%,精简默认依赖;产物优化,增强静态分析、支持编译器注解和模块联邦tree shaking;改进ESM支持,如纯ESM包、import.meta和import defer支持等;还有新特性,如支持React Server Components、#/子路径别名导入等。对于新项目可创建Rsbuild项目,老项目有升级指南,未来将从产物优化、Agent支持和工具链协同等方向演进。

文章介绍TRAE SOLO技能市场的14个核心技能及应用
本文精选TRAE SOLO技能市场的核心技能,涵盖开发工具、效率提升、界面设计、数据分析与内容创作领域。开发工具如git - commit辅助代码提交,react - best - practices优化代码;效率提升技能含agent - browser自动化测试,brainstorming辅助需求分析;界面设计方面,figma实现设计到代码转换,frontend - design提升界面质量;数据分析中有chart - visualization数据可视化,data - analysis处理文件;内容创作技能包括canvas - design生成静态作品,byted - seedream - image - generate生成图像,doc - coauthoring辅助编写文档,每个技能都有功能简介、应用场景和使用案例。

一个 iOS 17 新特性,把 Core Data 时代最丑的代码扫掉了
Swift 5.9引入的**<font style="color:#000000;background-color:rgb(38, 38, 38);">#Predicate</font>**宏解决**<font style="color:#000000;background-color:rgb(38, 38, 38);">NSPredicate</font>**痛点
文章围绕Swift 5.9引入的<font style="color:#000000;background-color:rgb(38, 38, 38);">#Predicate</font>宏展开。先指出旧的<font style="color:#000000;background-color:rgb(38, 38, 38);">NSPredicate</font>存在字符串驱动、无类型安全、可读性差等痛点。接着介绍<font style="color:#000000;background-color:rgb(38, 38, 38);">#Predicate</font>把谓词带入类型安全时代,以过滤文章数据为例展示其用法,还列举了它支持的逻辑、字符串、数值比较等操作,不过是<font style="color:#000000;background-color:rgb(38, 38, 38);">NSPredicate</font>的子集。此外,说明其在SwiftData中的应用可提高数据库查询效率,本质是编译器插件,展开后是<font style="color:#000000;background-color:rgb(38, 38, 38);">PredicateExpressions</font>嵌套结构。最后提到<font style="color:#000000;background-color:rgb(38, 38, 38);">#Predicate</font>从iOS 17等系统起可用,老系统受限。
Flutter 3.41.7 ,小版本但 iOS 大修复,看完只想说:这是人能写出来的 bug ?
Flutter 3.41.7版本修复iOS真机Crash和Git版本不匹配问题
文章围绕Flutter 3.41.7版本对iOS的修复展开。一是解决iOS真机Crash问题,在macOS 26.4/Xcode 26.4环境下,<font style="color:#000000;background-color:rgb(38, 38, 38);">flutter run</font>调试iOS真机时,DartWorker线程崩溃率约80%,原因是Xcode 26.4的LLDB有上游bug,最终通过禁用LLDB异步模式解决。二是修复Git版本不匹配问题,升级到macOS 26.4后,<font style="color:#000000;background-color:rgb(38, 38, 38);">flutter run</font>构建iOS应用可能失败,因Xcode修改<font style="color:#000000;background-color:rgb(38, 38, 38);">PATH</font>,使旧版Git不认识新版格式,通过添加参数和加固PR解决。虽修复简单,但问题成因奇葩,跨平台开发需应对此类状况。

Harness Engineering:AI 能在真正"出事会炸"的后端系统里写代码吗?
腾讯LEGO团队探索AI在后端系统写代码并构建工程体系
文章探讨AI在后端系统写代码的问题。以腾讯CDN LEGO项目为例,它代码多、依赖复杂、服务规模大且不可控因素多,AI写代码风险高。团队用20天完成AI Rust零人工代码开发nonstop项目,验证AI能力同时发现问题。分析AI Coding常见问题及根因,提出Harness Engineering架构。通过上下文建设消除AI“记忆偏差”,用结构化约束让AI“不敢”犯错,建立反馈机制提升输出质量。实践案例显示能修复问题、提升效率。还进行先行性探索,对比业界实践。最后探讨AI Coding时代后台开发角色演变、能力转型、团队建设及实践态度,强调构建可持续进化的工程体系。

京东对B端订单存储架构升级应对ES高并发压力
随着京东业务增长,B端订单存储面临巨大挑战,系统架构升级迫在眉睫。文章介绍POP订单异构系统现状,包括业务场景和架构,指出其存在数据倾斜、单数据分片过大、ES频繁更新、数据维护成本高的问题。针对这些问题,提出解决方案,如为大商家建独立集群、扩展热集群、增加挡板汇总消息、分阶段实现数据归档自动化等。最终通过组合拳构建高性能、高扩展、高可用的企业级订单检索与分析平台。此外,附录还阐述了超大集群维护挑战、ES更新细节及频繁更新带来的压力。

文章介绍分库分表后ID冲突的5种解决方案
文章先指出分库分表后ID冲突的原因,即各分片自增序列独立,会导致ID重复,影响跨分片查询和数据迁移。接着介绍5种解决方案:UUID简单但存储大、无序且可读性差;数据库自增步长改动小但扩容难;号段模式对数据库自增升级,可减少数据库压力,但依赖数据库高可用;雪花算法应用广泛,本地生成性能高,但有时钟回拨和Worker ID分配问题;美团Leaf对号段和雪花算法做工业级增强,解决了部分痛点。最后对各方案对比,给出选择建议,推荐使用成熟方案。

一单多运履约平台从烟囱式架构升级到平台化设计
文章围绕一单多运履约平台架构演进展开。早期“烟囱式”架构因业务增长出现开发慢、维护重等问题。为解决这些问题,平台进行了架构升级,明确核心能力,采用“能力原子化 + 扩展可插拔 + 运行可观测”思路,分层设计系统架构。详细设计从领域模型、拆分策略、核心流程、插拔式运力四个维度展开,构建完整执行链。通过跨城急送、跨城运输、冷链配送三个典型场景验证了设计的通用性,且改造后业务上线效率、核心稳定性提升,成本下降。未来规划包括智能化策略推荐、更细粒度资源调度和跨业务线能力复用。

从玩具到生产力:用真实项目讲透 AI Agent 的 Harness Engineering
作者分享AI Agent的Harness Engineering实践与落地方法
文章围绕AI Agent的Harness Engineering展开,首先指出在企业工程环境中Harness比Prompt更重要。解析了Harness,它管理大模型的非确定性,与传统软件工程不同。通过坐标轴界定其边界,介绍不同架构模式适用场景,还给出避坑指南。以Aegis项目为例,说明如何将模型引入既定轨道。sdd - riper - one - light 是跑在Harness架构上的工具。行业顶级团队也在采用Harness。最后给出从0到1落地的路径及实操方法,包括SOP、盯三层目标、识别偏航信号等。

托管 Agent 执行循环只是起点,AgentRun 托管的更是企业 AI 生产全链路
阿里云发布 AgentRun 托管平台助力企业 AI 生产
文章介绍阿里云 AgentRun 托管平台。AI Agent 从概念走向应用,企业需基础设施平台,AgentRun 应运而生。其以生态开放为理念,提供全生命周期管理,降低 TCO。托管式 Agent 成行业共识,范式围绕 Agent 定义等四概念。AgentRun 核心抽象对应范式,使用流程与其他平台一致但有差异。它在运行时与沙箱、模型服务等四方面投入更深,具备多租户隔离等能力。企业级场景中,它有数据不出域、统一凭证管理等能力。开发者生态上,补齐开源 SDK 和 CLI。2026 年 2 月,AgentRun 获 Omdia 报告‘领导者’桂冠。

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
淘宝Meta团队联合杭电发布端侧图像漫画风编辑大模型
MNN-Sana-Edit-V2是淘宝Meta团队联合杭电研发的端侧图像漫画风编辑大模型。它基于Sana和MetaQuery成果构建,用Qwen3 - 0.6B作预训练LLM,通过Learnable Query和Connector模块桥接文本与图像,结合高效架构设计,依托MNN框架量化部署,可在手机端本地运行。在iPhone 17 Pro上约15秒完成512×512图像漫画风格转换,较云端提速2.5倍,保障隐私与效率。已集成至MNN Chat应用,代码与模型权重全面开源。文章还介绍了网络框架设计、核心技术、训练策略、MNN端侧部署优化等内容。
TRAE开发者介绍SOLO MTC助力AI短剧制作方法
AI短剧是内容行业增长快的赛道,过去制作需团队,如今借助AI工具一人也可完成。文章围绕“用SOLO MTC协助制作AI短剧”,从5个痛点切入。痛点包括创意到执行有鸿沟、角色一致性难、分镜描述有专业门槛、工具碎片化和缺乏版本管理。SOLO可如总导演般规划工作流、读取素材、编写脚本、调用API、管理文件。还介绍生图/生视频Skill技能,它像“翻译官”让AI调用外部模型。实际操作对比传统与SOLO MTC模式工作流,详细讲解从明确需求、产出剧本、生成主体设定、制作分镜文案、设计分镜图到视频生成合成等步骤,最后指出SOLO可让创作者专注想故事、做审美判断和定义风格。
DeepSeek V4百万token不是终局,Anthropic说:session管理才是
DeepSeek-V4开源,Anthropic介绍Claude Code会话管理方法
DeepSeek-V4开源将百万token上下文带入普惠时代,Anthropic的Claude Code官方博客从session管理角度进行补充。博客指出上下文会“腐烂”,随着上下文增长模型性能会下降,关键在于管理空间。介绍了五个选项:Continue继续当前会话;Rewind回退到之前消息重新开始;Clear开新会话;Compact总结当前会话继续;Subagents委派子代理。还对比了Compact和Clear的差异,强调1M token提供缓冲期。最后给出决策矩阵,说明不同场景下的选择,用好Claude Code关键在于任务结束后的正确选择。

Andrej Karpathy开源AI Coding经验andrej - karpathy - skills
文章介绍了Andrej Karpathy(OpenAI联合创始人)处理AI Coding问题的经验被炼成andrej - karpathy - skills并开源,获86.1k Star。提出四个原则解决AI Coding的坑:编码前思考,避免错误假设和隐藏困惑;简洁优先,防止过度复杂和臃肿抽象;精准修改,避免无关编辑;目标驱动执行,给LLM明确成功标准。还介绍判断原则起效的四个信号及安装方式,强调将期望写成规则让AI按规则行事的思路值得学习。

上海交大金耀辉教授在Datawhale开源AGI学习路径项目
上海交通大学金耀辉教授在Datawhale开源Path2AGI项目,给出AI发展下是否学基础学科的回答。该项目整理AGI学习路径,指出AI是25个基础学科共同汇流结果。仓库有25篇学科专题文档,按五大知识簇组织,各篇结构统一。还提供五条能力路径,读者可按需选择。市面上多数AI学习资料默认其是计算机科学延伸,而Path2AGI从基础学科视角看AI,在中文世界少见。其认为因AI发展快,更需回到基础学科,该项目旨在帮助中文学习者。

Claude Code 自己把自己写降智,AI 时代 Harnees 和全局审核的重要性
Anthropic的Claude Code降智,复盘后解决三个问题
Claude Code更新频繁,在3 - 4月出现降智问题。Anthropic复盘发现三个问题:一是2 - 4月默认reasoning effort从high降至medium,虽降低延迟和成本,但写代码易少边界条件;二是3 - 4月缓存优化有bug,使Claude丢失旧reasoning,导致健忘、重复等问题,且用量消耗变快;三是4月为适配verbosity问题,系统prompt限制输出长度,压低代码质量。4月20日三个问题解决,23日重置订阅用户用量限制。这凸显了harness和全局审核的重要性。

DeepSeek-V4 发布 10 小时,北大开源项目实现了自动化评测!
北大DCAI团队开源大模型评测框架One-Eval
文章介绍北大DCAI团队开源的大模型评测框架One-Eval。传统评测框架有局限,One-Eval从自然语言需求出发,重构评测工作流。实测DeepSeek-V4时,输入评测需求,One-Eval自动推荐benchmark、完成准备工作并生成报告。其破局思路是将任务交给Agent,重做执行架构,有六项设计:用自然语言发起评测、自动规划方案、全链路可追溯、模块化设计、可交互人机协同、自动生成报告。One-Eval构建新评测范式,未来会继续迭代,团队欢迎各界关注使用开源项目。

火山方舟 Coding Plan 上新 | 开发者深度横评,拆解三大模型核心差异
火山方舟Coding Plan上新三模型,开发者深度横评差异
火山方舟Coding Plan新上线GLM 5.1、Kimi K2.6、MiniMax M2.7三个国产开源旗舰模型。文章对比了它们的跑分、架构、杀手级能力等核心差异,GLM 5.1适合项目级重构等,能自主闭环工作;Kimi K2.6有原生多模态能力,适合前端任务;MiniMax M2.7成本低,具备原生Agent Teams能力,适合多Agent协作。文章还给出选型表,展示实战操作,最后提供了Claude Code在火山方舟Coding Plan中的保姆级配置教程,包括CLI工具和IDE工具的配置步骤。
快手技术团队在ICLR 2026会议发表多篇AI前沿论文
ICLR 2026国际顶级学术会议上,快手技术团队多篇论文入选,研究覆盖多模态大模型等AI前沿方向。如提出ALM - MTA为创作者生态优化提供归因方案;TaR - ViR实现更高效表格检索;DNR重排学习框架优化推荐系统;DIVA - GRPO提升多模态推理能力;DreamOn解决扩散语言模型代码填充长度限制;还有评估文本创造力、序数回归、排序模型、电商对话、视频检索等方面的研究成果。未来,快手将强化AI研发与跨领域协同创新。
腾讯混元团队降低模型成本,腾讯云推低价 Token Plan
文章指出 AI Agent 好用但 token 成本高,原因是全球算力紧缺、高端 GPU 供不应求。混元团队以性价比为目标重建模型基础设施,通过 MoE 架构压成本,将模型架构和推理框架一起设计,使 Hy3 推理成本显著降低。腾讯云推出定制化 Hy Token Plan,个人版低至 28 元/月起,有 3500 万 Tokens。Hy3 在多种基准中表现出色,运行时首 token 延迟、端到端时长降低,成功率高。
还在苦恼专业“养虾”没人帮,ArkClaw Agent 广场一键创建专家助手
火山引擎ArkClaw上线Agent广场,可一键创建专家助手
文章介绍了火山引擎ArkClaw的Agent广场。过去养通用助手缺乏垂直行业深度认知,培养成专家助手需花费大量精力。而ArkClaw Agent广场覆盖多领域专业Agent模版,可零门槛专业养“虾”。用户登录控制台,通过Agent广场或创建Claw,基于多样模板能快速创建行业专家Agent,如创建「A股分析师」专家。同时,仅用一个ArkClaw实例就能组建专属Agent团队,可灵活切换身份,降低运维成本,例如组建AI产品落地的超能虾战队。此外,ArkClaw持续上新模版,还推荐了「A股分析师」等专家热榜,引导用户加入养虾互助群、搭建战队、获取攻略等。
DeepSeek发布V4模型,阿里云AI网关率先支持其API管理
今天,DeepSeek发布V4-Pro和V4-Flash两个模型,架构和后训练范式升级,引入全新注意力机制,提升模型效果和性价比,如Agent能力提高、世界知识丰富、推理性能优异、上下文提升且推理资源消耗降低。该模型支持OpenAI和Anthropic接口。阿里云AI网关率先支持DeepSeek-V4 API管理,用户可调用其服务,还实现了与其他模型的Fallback能力,并介绍了在AI网关控制台配置调用的方式。

Google Cloud Next 26: 定义 "智能体企业" 新纪元
Google Cloud在Next 26大会发布多项技术助力企业智能转型
Google Cloud在Next 26大会宣布系列创新技术,助力企业向智能体企业转型。推出全新统一AI技术栈、第八代TPU,引入智能体创新。Gemini Enterprise可重塑企业工作流,其Agent Platform降低AI智能体开发门槛。TPU 8t和TPU 8i分别针对训练和推理优化,性价比提升80%。还推出AI驱动的网络安全平台,含多款智能体,reCAPTCHA升级为Google Cloud欺诈防御。此外,Google Workspace Intelligence重塑工作方式,涵盖多应用功能。

Google Cloud Next 26: 定义 "智能体企业" 新纪元
Google Cloud在Next 26大会发布多项技术助力企业智能转型
Google Cloud在Next 26大会宣布多项创新技术,助力企业向智能体企业转型。推出全新统一AI技术栈、第八代TPU,包括TPU 8t与TPU 8i,分别针对模型训练和推理优化,性价比提升80%。发布Gemini Enterprise Agent Platform,降低AI智能体开发门槛。还推出AI驱动的网络安全平台,含多种智能体提升效率和安全防护。Workspace Intelligence重塑工作方式,涵盖多应用功能。众多企业已借助这些技术取得商业成效,超75%客户用其AI产品驱动增长。

DeepSeek发布V4预览版,多优势推动大模型发展
文章介绍了DeepSeek-V4预览版,有Pro和Flash双版本。Pro版参数1.6T/49B,有三种推理模式,解决复杂任务能力逼近顶级水平;Flash版参数284B/13B,性价比高、吞吐快,部分Coding Agent可体验。基准测试显示,它在部分能力维度表现佳。核心技术创新包括混合注意力架构等。官方给出定价,API双兼容,支持全功能扩展,旧版将在2026年7月24日停服。它还适配华为昇腾芯片,1.6万亿参数权重开源,推动大模型发展。
火山方舟上线影眸Hyper3D Gen-2与数美Hitem3D 2.0
火山方舟上线影眸Hyper3D Gen - 2与数美Hitem3D 2.0
3D内容虽已渗透各行业,但建模成本高、周期长制约其规模化应用。火山方舟上线影眸Hyper3D Gen - 2与数美Hitem3D 2.0两款AI 3D生成模型。影眸Hyper3D Gen - 2是生产级3D生成模型,支持三种输入方式,5分钟交付,成本低至传统方案1%,覆盖多行业场景,输入输出可控。数美Hitem3D 2.0是工业级AI图生3D模型,能精准还原细节,支持PBR材质贴图输出,最高输出200万面高精度模型,满足实体制造精度需求。用户可通过火山方舟API与管理控制台调用模型。
首发!Agent Skills 实战指南:从 PPT 生成到自动发推文,源码级复刻
作者发布Agent Skills实战指南并提供免费领取渠道
2026年多数人使用AI仍停留在Chat模式,而在真实业务系统中,让AI操作数据库等正从‘加分项’变‘必选项’。实现关键是Anthropic于2025年10月发布的Agent Skill标准。Skill是Claude制定的一套标准,Skills是开放、模块化、可组合的智能体技能仓库,其理念是给AI一套‘技能工具箱’,现各Agent工具等都已支持。作者总结了【Agent Skills实战指南】,涵盖深层解构、最佳实践等内容,可扫码免费领取。

火山引擎发布新一代汽车AI解决方案,豆包大模型上车超700万辆
4月24日北京车展开幕首日,火山引擎发布基于Agentic AI架构的新一代汽车AI解决方案,含AI座舱套件方案和豆包座舱助手方案。该方案基于全链路端到端AI座舱架构,颠覆上一代语音助手架构,实现“感知-推理-执行-记忆-学习”一体化闭环。新技术架构下提供两种合作方案,AI座舱套件方案可按需配置,豆包座舱助手方案年内量产上车。目前,火山引擎与主流车企合作,搭载豆包大模型的智能汽车超700万辆,覆盖多品牌和车型。方案融入对话推理、目标驱动、学习成长三大引擎,能实现自然交流、自主做事、自我提升。车展期间多款搭载豆包大模型的新车亮相,火山引擎致力于推动智能汽车迈向“原生智能”新时代。
800行代码实现 Open Claw 的 Tool、消息总线、子Agent管理架构
淘天集团会员技术团队用800行代码实现Open Claw架构
文章围绕Open Claw的Tool、消息总线、子Agent管理架构展开,介绍800行代码的最小可运行实现。该框架基于Anthropic Claude API,用TypeScript编写于单进程Node.js环境。阐述四个核心模块:工具系统、消息总线、子Agent管理和REPL主循环。工具系统含抽象类和注册表,内置文件操作、命令执行等工具;消息总线处理入站消息,有订阅和排水两种消费模式;子Agent管理采用单进程并发模型,工具集受限;REPL是交互入口,有并发控制、消息订阅等机制。最后指出设计选择与局限,如零框架依赖、子Agent无持久记忆等,核心设计包括Tool抽象+Registry模式、双通道消息机制等,组成可扩展Agent运行时。
Google研究人员提出模拟多样化人群的“人格生成器”
文章介绍了用大语言模型模拟多样化人群的方法。Google的研究人员提出“Persona Generators”,通过程序化方式调整“人格提示词”覆盖不同观点。用进化方法AlphaEvolve生成代码,生成25个不同人格提示词,驱动模型回答问卷并评估多样性。该方法在新测试场景下,生成人格的多样性指标优于现有方案,能覆盖更多可能回答。其对企业理解市场反馈有帮助,为产品决策提供新思路。

DeepSeek-V4预览版上线开源,具备百万上下文能力
今天,DeepSeek-V4预览版上线并开源。它有百万字超长上下文,分Pro和Flash两个版本。Pro版在Agent能力、世界知识和推理性能上领先,Agent能力达开源最佳,知识测评仅稍逊顶尖闭源模型,推理性能比肩顶级闭源。Flash版知识储备稍逊,但推理能力接近,能提供快捷经济的API服务。该模型开创全新注意力机制,降低计算和显存需求。还针对主流Agent产品优化。目前API已上线两版本,旧模型名3个月后停用。模型开源且有技术报告。

OpenAI发布GPT - 5.5,多项能力提升并推赏金项目
凌晨,OpenAI发布GPT - 5.5,是GPT - 5系列迄今最大更新,重回全球SOTA王座。它能用更少token干更难的活,在多项指标评测中表现出色,如在Artificial Analysis的Coding Agent Index上达最高智能水平,成本是竞品一半。该模型已向ChatGPT付费用户开放,GPT - 5.5 Pro向特定用户开放,API即将上线且价格上涨。在编码、知识工作、科学研究等方面能力提升明显,推理效率提高,网络安全能力被评为High。同时推出生物安全漏洞赏金项目。不过,在部分评测中,GPT - 5.5也存在短板。

刚刚,GPT-5.5 来了,碾压 Claude Opus 4.7
OpenAI发布GPT - 5.5,各方面能力提升显著
OpenAI发布GPT - 5.5,文中用GPT - Image - 2生图模型总结该模型。官方数据显示GPT 5.5各方面能力提升明显,尤其是编码能力,但实际体验待测试,部分人已用上。近期GPT进化速度快,作者期待提升代码设计能力,文章发布于浙江4月24日02:50 。
深度解析 Hermes Agent 如何实现“自进化”及其 Prompt / Context / Harness 的设计实践
Nous Research推出的Hermes Agent实现“自进化”能力
文章深度解析Hermes Agent实现“自进化”及相关设计实践。Hermes Agent由Nous Research推出,在GitHub获4万颗Star。其“自进化”依赖动态Skill生成和RL训练闭环。动态Skill生成能沉淀经验,实现自动生成、持续优化和积累;RL训练闭环从数据合成到评估形成完整闭环。在Prompt Engineering上,它动态适配模型并兼容多生态;Context Engineering采用比例阈值压缩和内外双驱记忆架构,还优化上下文注入;Harness Engineering有全生命周期Hook、错误分类自愈、子Agent隔离、插件系统和安全护栏。Hermes突破传统Agent局限,迈向自进化,推动AI系统架构演进。

刚刚!Generic Agent 中文教程发布!比Hermes省10倍Token
Datawhale团队发布Generic Agent中文教程
Datawhale Hello - GA 项目团队发布 Generic Agent 中文教程。当前 Hermes 等 Agent 存在耗 token、运行慢、易遗忘等问题,GA 遵循上下文信息密度最大化原则,半个月涨 5k star 登 GitHub trending 第一,但中文社区缺文档。GA 是极简、可自我进化的自主 Agent 框架,能赋予大模型系统级控制,比 Hermes 省 10 倍 Token。教程分三部分:应用指南可零门槛上手;原理篇深度解析其高效原因;案例篇即将上线。2026 年 4 月 Datawhale 正式开源「Hello Generic Agent」。

滴滴桔厂工程师推荐技术书籍并邀读者参与活动
《技术桔有话说》系列专栏聚焦热门议题。4·23世界读书日,桔厂五位工程师推荐了珍藏技术书籍。包括大模型应用落地“实战圣经”,聚焦RAG等核心技术;大模型时代“安全+合规+伦理”实战手册;经典的模式识别与机器学习书籍;探讨AI安全伦理的书;大模型实战指南;梳理科技产业发展史的书。最后“桔长”邀请读者推荐技术书籍并抽取十位送书。
2050学习节举办,17位讲者探讨AGI在科学领域应用
2050学习节@AI4S将在4月25日9:00 - 12:00于杭州云栖小镇2050大会五云厅举办,由2050@2026学习节、Datawhale主办。17位一线讲者通过3幕剧探讨AGI在科学领域的应用。幕前有于晓轶分享《生长中的AGI4Science》;第一幕聚焦落地前沿,如聚变商用、AI在物理、芯片设计等领域的应用;第二幕探讨AI作为伙伴的现状与局限;第三幕思考AI未来方向,如能否发现相对论、如何变革基础数学等。大会获Nexus for Intelligence等支持。
腾讯混元新里程碑:Hy3 preview 发布开源,Agent 表现全面提升
腾讯发布开源混元Hy3 preview,模型能力及性能提升
4月23日,腾讯发布并开源混元Hy3 preview语言模型,它是快慢思考融合的混合专家模型,总参数295B,激活参数21B,最大支持256K上下文长度。2026年2月腾讯混元重建相关基础设施及追求实用性三原则。Hy3 preview能力全面提升,在上下文学习、复杂推理、代码与智能体等方面表现出色,性价比高。该模型已在腾讯多个产品上线,接入主流开源智能体产品。在腾讯核心业务产品测试中收益明显,推理效率提升40%,成本大幅下降。
Hy3 preview发布并开源:混元重建后首个模型,Agent能力大幅提升
腾讯发布并开源混元Hy3 preview语言模型
腾讯发布并开源混元Hy3 preview语言模型,它是快慢思考融合的混合专家模型,总参数295B,激活参数21B,最大支持256K上下文长度。今年2月腾讯重建预训练和强化学习基础设施,确立能力体系化、评测真实性、性价比追求三个原则。Hy3 preview是重建后首个模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上大幅提升。它已在多个产品上线,在各产品评测中表现出色,如在CodeBuddy、WorkBuddy产品上首token延迟降低54%、端到端时长降低47%、成功率提升至99.99%+。模型权重和代码已在多平台开源,支持主流推理框架,腾讯云推出有竞争力的API价格和定制化Token Plan,个人版最低28元/月。腾讯希望通过开源和发布获反馈,持续改进模型。

【今晚开播】社区说|Gemma 4 来了!开启 AI 构建的无限可能
谷歌推出Gemma 4,社区说专场今晚分享实战技巧
谷歌本月推出与Gemini同源的开放模型Gemma 4,它延续‘轻量级、高性能’基因,性能跨代飞跃,开发者能用更低算力掌握顶尖生成式AI生产力。为让国内开发者掌握其实战技巧,‘社区说’推出Gemma 4专场,多位技术专家将围绕模型演进、Android开发、多平台部署微调、构建AI Agent等核心实践分享。活动于4月23日19:00 - 21:20进行,还设置互动环节,分享使用体验有机会赢限量礼品。

告别OpenClaw运维盲区:火山引擎日志服务TLS一键开启全景观测
火山引擎日志服务TLS为OpenClaw提供全景观测方案
OpenClaw应用走向生产环境时,开发和运维团队面临Token成本不明、多轮对话追踪难等挑战。火山引擎日志服务TLS提供OpenClaw运维观测方案,通过一键式插件采集数据并生成观测大盘。介绍了接入前提、鉴权模式、安装命令,阐述成本、运维、性能、安全四个观测大盘功能,还能通过SQL追溯根因,实现OpenClaw可观测性闭环。

火山引擎发布3D生成模型Seed3D 2.0,能力升级
今天,新一代3D生成模型Seed3D 2.0正式发布,围绕几何精度和纹理材质进行架构升级。在专业盲测中,它在几何生成和端到端带材质资产生成上偏好率更高。其升级体现在:几何生成上,采用Coarse - to - Fine两阶段策略,白模能精准还原物体结构,空间结构推理能力强;材质生成上,调整架构,提升文字还原精度,支持复杂材质组合,输出完整PBR材质贴图;后续还将支持拆分3D资产、添加关节信息,适配物理运动,支持多形式输入和场景生成。目前,其API服务已上线火山方舟。
团队发布更高精度3D生成大模型Seed3D 2.0
高质量3D内容是具身智能等领域关键基础设施,此前方法生成的3D内容难达生产级要求。今天发布更高精度的3D生成大模型Seed3D 2.0,团队对其架构升级,拓展下游可用性。在对比评测中,该模型在几何和纹理生成指标上取得SOTA结果。其几何生成引入两阶段DiT,解耦“整体结构”与“几何细节”;纹理生成简化为统一PBR生成模型,引入MoE架构和VLM先验。下游任务方面,它可实现部件级生成与场景组合,还引入关节化建模能力。不过,3D生成仍面临几何精细度、纹理误差、推理效率等挑战,未来将继续攻坚推动其规模化应用。
Anthropic发布Claude Opus 4.7及设计工具,多领域有设计动态
这是A's周刊24期内容,涵盖AI与设计领域动态。2026年4月16日Anthropic发布Claude Opus 4.7,编程、视觉等能力提升;17日推出AI设计工具Claude Design挑战Figma,还上线Routines实现云端任务自动执行。2026年米兰设计周举办,主题关注设计过程,三宅一生、Yinka Ilori等作品体现可持续等理念。2026科切拉音乐节有《迷宫》等艺术装置。此外,还有Amazônia品牌以河流曲线设计字体;Pentagram为MoN叙事博物馆做全案设计;NIKE新宿店以手写字体打造独特视觉。

Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency
蚂蚁技术发布Ling-2.6-flash模型,优化多方面效率
文章介绍了Ling-2.6-flash模型。随着智能体能力成熟,Token消耗增长成大模型落地核心矛盾。该模型总参数量104B、激活参数7.4B,围绕推理效率、Token效率与Agent场景表现优化。其核心能力体现在:引入混合线性架构,4卡H20条件下推理速度最快达340 tokens/s;针对性校准Token效率,在评测中仅消耗15M tokens,约为其他模型1/10;针对Agent场景,在多项评测中表现出色。此外,模型在架构、推理效率、Token效率等方面进行优化,在实战演示的代码、文本、Agent工具调用场景中表现良好。不过,它在部分高复杂度场景有工具幻觉,双语切换等方面待优化。目前其匿名测试版调用量增长,官方将提供免费API调用,相关版本也将开源。
WasmGC 是什么?为什么它对 Flutter 和 CMP 在 Web 领域很重要?
文章介绍WasmGC及其对WebAssembly发展的重要性
文章介绍了WasmGC,它是WebAssembly发展里程碑,让Kotlin和Dart在WebAssembly成完整Native。起初WebAssembly无GC概念,仅提供Linear Memory,适配第三方语言时引发对GC的需求。没有WasmGC时,Flutter和CMP的Wasm产物体积大、效率低、易内存泄漏。引入WasmGC后,可复用宿主环境GC。它引入struct和array核心类型,解决影子栈和循环引用问题,提升产品可用性与互操作性。还介绍了其标准化和实现周期,表明它对Wasm流行和推广意义重大。
10 个顶级 Claude Code Skills,装上就删不掉!附真实使用场景和效果对比
作者分享10个Claude Code Skills使用经验及效果
作者分享使用Claude Code Skills的经验。起初让Claude写代码遇边界问题,凸显Skills重要性,它为Claude提供工作方法论。介绍10个实用Skills:9个来自<font style="color:#000000;background-color:rgb(38, 38, 38);">superpowers</font>包,1个单独安装。涵盖规划思考、质量保障、协作效率、工程配套四类。如<font style="color:#000000;background-color:rgb(38, 38, 38);">brainstorming</font>让Claude先头脑风暴,<font style="color:#000000;background-color:rgb(38, 38, 38);">writing-plans</font>拆解复杂任务,<font style="color:#000000;background-color:rgb(38, 38, 38);">executing-plans</font>确保执行不跑偏等。还解答常见问题,指出Skills让AI更自律,是工程规范数字化,最后推荐去GitHub搜更多社区Skills。

阿里推出Qwen3.6多个开源权重版本
阿里推出Qwen3.6的多个开源权重版本。该模型基于社区反馈,优先保障稳定性与真实场景可用性,为开发者提供更好编码体验。Qwen3.6-27B是270亿参数的稠密多模态模型,支持多模态思考与非思考模式,在智能体编程方面超前代开源旗舰,无需MoE路由即可部署。Qwen3.6-35B-A3B是稀疏但能力出色的MoE模型,总参数量350亿,激活参数30亿,在智能体编程表现卓越,超越前代模型,可与部分稠密模型一较高下,也是支持多模态思考与非思考模式的通用开源模型。

阿里SkillClaw:让 Agent 技能在真实使用中集体进化
阿里推出SkillClaw让Agent技能在使用中集体进化
文章介绍阿里SkillClaw,旨在解决当前LLM Agent技能部署后静态、经验无法共享问题。它提出中心化进化架构,将多用户交互作为技能改进信号,形成集体进化闭环。其核心是Agentic Evolver,能对共享技能库开放推理式更新。进化后的候选技能需经夜间验证,确保只部署有效改进。实验在WildClawBench上进行6天,结果显示不同领域有持续稳定性能提升。案例研究表明,SkillClaw可提升Agent行为精确性和约束感知决策能力。

Build with AI 深圳场|在大湾区科技浪潮中预见 AI 未来
Build with AI深圳站活动邀开发者探索Gemma 4潜力
Build with AI来到深圳,其核心议程Gemma 4中国系列巡回活动在此举办。Gemma 4是Google开放模型家族新成员,参数效率有突破,为开发者提供更多微调与集成空间。深圳站活动将从架构深度拆解、端侧模型探索、端侧智能集成三方面助力开发者技术进阶。活动时间为2026年4月25日12:30 - 18:05,地点在深圳南山区达实大厦报告厅。此外,活动还设有生态交流、灵感社交环节,参与互动及实战挑战的开发者有机会获精美礼品。Google开发者社区(GDG)是世界最大开发者社区。

云上实战说 | 终结 AI "抽卡式" 生成,尽在 Wondershare x Google Cloud
Wondershare的Filmora联手Google Cloud革新AI视频创作
为终结AI视频生成的抽卡难题,Wondershare旗舰产品Filmora与Google Cloud合作,将“故事成片”与“一键成片”整合为完整创作体系,实现从“工具”到“智能创作大脑”的跨代跃迁。“一键成片”能让AI深度解构素材,自动完成剧情串联与封装;“故事成片”只需输入灵感,AI就能演化出叙事短片。Filmora搭载Google Cloud AI技术,提升创作效率,降低创作门槛。
OpenClaw、Hermes合用?来自500+社区互动的真实看法
调研展示全球开发者对OpenClaw和Hermes的真实看法
文章基于多个社区用户反馈,调研开发者对OpenClaw和Hermes的看法。指出二者非替代关系,而是并存互补。OpenClaw生态成熟、功能强大,但有安全危机、更新易中断工作流等问题;Hermes安装配置流畅、有学习能力、成本低,但生态规模小、存在过度自信等缺陷。不少用户选择二者合用,OpenClaw负责基础设施层,Hermes负责智能层。此外,社区还关注OpenClaw的可靠性、安全性、成本,Hermes的营销争议,以及自部署向托管服务转变的趋势。

OpenAI Agents SDK:生产级智能体开发的工程化利器
OpenAI推出Agents SDK助力智能体应用开发
OpenAI推出Agents SDK v0.14.2版,是标准化智能体开发框架,提供完整工程化体系。此前开发者构建生产级智能体面临困境,如模型无关框架适配成本高、模型厂商SDK调试运维难等。新版SDK有两大核心升级,一是更强大的智能体控制层,接管底层循环与工具链;二是原生沙箱执行,提供安全运行环境。其采用分离架构保障安全、持久执行和横向扩展。官方给出数据分析师智能体示例,亮点是隔离沙箱执行。与传统开发相比,SDK在开发效率、安全能力等多方面有优势,让开发者专注业务构建智能体应用。

GPT - Vis 1.0将发布,可实现AI图表可视化
GPT-Vis 1.0是为AI应用设计的可视化渲染库,模型能像写Markdown一样“写”图表,前端可流式丝滑渲染。它有26种图表,涵盖统计和关系两大类,适用于主流场景。其设计了markdown - like可视化语法,容错性强且支持流式渲染。还配套Chart Visualization Skill,让Agent自动选图、生成语法,实现从数据到图表的链路。1.0正式版及Skill预计下周发布,核心功能稳定,可提前试用,文档和GitHub地址已给出。

TVP们探讨AI Agent企业落地的机遇与挑战
TVP们围绕AI Agent企业落地展开讨论。企业一把手重视度高,认知从把AI当技术转变为生产力革命。AI Agent能做持续监控、跨平台消息协调等工作,可打破流程壁垒、联通数据孤岛等。实操者反馈使用方便,分析报表快,金融领域用其做量化交易有回报。但应用面临安全、成本、合规挑战,如系统权限滥用、Token消耗大等。模型选型要平衡成本,战略上传统企业有变革或投资两条路。前沿信号显示Agent经济初现雏形,总体要先行动,小场景验证再推广。
论文秀Live#37|别再当“数据苦力”了!ICLR新算法让Agent自己找数据、自己学
蚂蚁集团论文秀Live分享ICLR两项智能体算法工作
大模型在复杂业务场景应用中面临效率与成本问题。本期论文秀Live精选ICLR 2026两项工作破解智能体“效能困境”。论文一提出M² - Miner,基于多智能体协同和蒙特卡洛树搜索,解决移动端GUI智能体数据挖掘构建成本高、质量差、丰富度不足问题,将开源;论文二提出基于信息增益的策略优化(IGPO),解决多轮搜索智能体训练中奖励稀疏问题,在多轮场景表现优。亮点是提出GUI Agent数据挖掘框架和轮次级别奖励信号构建及RL训练方法。作者将分享技术思路与验证过程,直播于2026年4月23日18:30 - 20:00在多平台同步进行。
火山引擎Coding Plan上线GLM-5.1,联合ArkClaw支持一键“虾马同养”
火山引擎Coding Plan上线GLM - 5.1,联合ArkClaw推新功能
火山方舟Coding Plan正式上线GLM - 5.1,其能力媲美Claude Opus 4.6,在Agent长程任务上可一次性执行8小时级持续工作。Coding Plan是国内首个集合多款模型的订阅套餐,集成了Doubao - Seed - 2.0 - pro等多款模型,用户能为不同任务匹配合适模型。火山引擎ArkClaw推出Hermes Agent插件,无缝集成Coding Plan,用户可通过Coding Plan Pro体验新能力。此外,上新的Doubao - Seed - Embedding - vision多模态向量模型和原生支持视觉理解的Doubao‑Seed‑2.0系列模型也提升了使用效果。同时,推荐好友订阅有优惠。
阿里发布生态级AI助手数字人“千问小酒窝”
今日正式发布生态级AI助手数字人形象“千问小酒窝”,用户在千问App里通过对话能让其解难题、做规划、订餐等。春节以来,千问App接入淘宝、飞猪等阿里生态业务,实现跨服务串联执行。随着生态打通,千问AI助手将出现在淘宝、飞猪等应用,帮用户实现智能化购物与旅行规划体验。未来,千问小酒窝会融入阿里各生态应用,成为AI生活搭子。
腾讯云开源兼容E2B的AI Agent底座Cube Sandbox
腾讯云宣布开源面向AI Agent的执行环境底座Cube Sandbox,是业内首个兼顾硬件级隔离与亚百毫秒启动的开源沙箱服务。它原生兼容E2B接口标准,可使开发者平滑迁移现有Agent应用。该沙箱不仅支持单次执行与调用,还能支撑Agent的循环,覆盖完整场景。其性能强劲,冷启动<60毫秒,单实例内存开销<5MB,单台服务器可运行2000+个沙箱实例。Cube Sandbox在腾讯云有大规模生产验证,具备安全、性能、规模和兼容等优势,还将扩展生态能力,如开源事件级快照回滚能力。

Copilot 下架 opus ,Qwen 开始按量计费,GLM 限制非代码使用,Token都在涨价,人还比 Token 便宜吗?
Copilot、Qwen等AI产品调整策略,算力产品纷纷涨价
文章指出当下AI浪潮中,虽模型和工具宣传效果好,但因算力不足,出现各种涨价或变相涨价情况。如阿里云Qwen模型订阅政策调整,将实行按量计费;GitHub Copilot修改订阅政策,收紧高端模型访问;Z.AI、Claude Pro等也有使用限制或性能下降问题。此外,Google、Windsurf等产品也有价格上调或配额收紧现象,阿里、百度、腾讯云的AI算力产品同样涨价。随着AI价格上涨、稳定性受考验,人们开始重新审视AI与人力成本,短期Token看涨,高消耗场景或转向按量或高阶付费。

凭空捏音色、一键极速克隆!VoxCPM2 部署、微调全能实战指南
OpenBMB发布VoxCPM2本地部署与微调全攻略
VoxCPM2是20亿参数的文本转语音模型,支持30种语言等多种功能,受社区广泛关注。文章为其提供本地部署与微调攻略:先介绍参考部署环境,包括系统、显卡等要求;接着说明模型下载链接,国内推荐从ModelScope下载;然后阐述环境准备,如检查GPU和驱动、安装Python和PyTorch;介绍安装方式,有pip和源码安装;还说明了启动Web Demo的方法,提供在线Demo链接;介绍Python API和命令行CLI用法;讲解LoRA微调步骤,包括准备数据、修改配置等;推荐生产部署用Nano-vLLM-VoxCPM推理引擎;最后解答常见问题,鼓励社区交流反馈。
邱生峰用千问大模型开发燃言助构音障碍者交流
本文讲述了28岁的邱生峰的故事。他因缺氧脑瘫,行动发声困难,但他坚持训练,高考超重点线57分考入重庆大学,后投身NLP科研。职场中因构音障碍遇交流难题,创业缺思路。参加“小有可为”AI向善比赛时,受启发用千问大模型开发燃言,帮助构音障碍者交流。他克服数据稀缺等困难,经3个月打磨产品,成功演讲展示。此外,还提到63岁老人教退休者用AI解读报告、学生用AI判麦子等事例,体现AI成通用能力,传递善意。

还在纠结“龙虾”还是“爱马仕”吗?火山引擎 ArkClaw 让选择不再困难
火山引擎ArkClaw支持OpenClaw和Hermes Agent助力开发
2026年以来AI Agent领域热闹,OpenClaw和Hermes Agent先后登场,火山引擎ArkClaw迅速采纳并提供给开发者。ArkClaw构建决策与执行一体化体系,压缩人工干预。Hermes有闭环学习机制,可自进化。Hermes Agent以插件接入ArkClaw,部署简单。文中介绍了“领马”操作步骤,还提醒Hermes仅支持“助手模式”,且ArkClaw版本不低于ark - 26.4.1才能支持。升级后的ArkClaw功能丰富,助力开发者构建应用,企业平衡效率、可控性与安全性。
谷歌推出Gemma 4,社区说将举办专场技术分享活动
谷歌本月推出与Gemini同源的开放模型Gemma 4,它延续‘轻量级、高性能’基因,性能跨代飞跃,开发者能用低算力掌握顶尖生成式AI生产力。为让国内开发者掌握其实战技巧,‘社区说’推出Gemma 4专场,多位技术专家围绕四个核心实践深入分享。活动于4月23日19:00 - 21:20举行,安排了活动介绍和主题分享,还设置互动环节,分享使用体验有机会赢礼品。此外还提供往期精彩内容链接和活动直播订阅方式。

微软亚洲研究院等推出测试集揭示大模型数学推理能力差距
大语言模型在抽象数学竞赛表现出色,但在现实场景数学问题上能力欠佳。微软亚洲研究院联合多高校推出ContextMATH基准测试集,测试61款主流大模型,发现模型在情境化任务中准确率显著下滑,约80%错误源于问题提炼出错。研究指出大模型解决情境化数学问题有公式化和推理两大能力瓶颈,“端到端混合训练”可提升模型情境化解题表现,而拆解任务训练无效。研究结论表明未来模型训练应走“抽象+场景”融合路线,ContextMATH构建思路可迁移到多个AI能力评估领域。
Anthropic顶级Claude模型被逆向开源,这几个模块借鉴了DeepSeek
22岁开发者逆向开源Anthropic Claude Mythos模型架构
此前Anthropic公布强大却危险的大模型Claude Mythos Preview,未发布使用。如今,22岁开发者将其架构逆向开源,核心模块借鉴DeepSeek。Kye Gomez发布OpenMythos(已有5000 star),基于PyTorch实现Claude Mythos理论重构。该架构实例化带混合专家(MoE)路由机制的循环Transformer,通过权重共享和跨专家条件计算实现迭代深度。推理在连续潜空间进行,循环块执行共享的TransformerBlock,FFN是遵循DeepSeekMoE设计的混合专家层,路由器在不同循环深度选不同专家子集。完整架构含Prelude、循环块、Coda,采用多潜注意力缩减KV内存。还有三种机制稳定循环。实证显示RDT能以更少参数达相同效果,重新框定扩展性争论。OpenMythos有多项贡献。

中科大发布全新情景认知视角的大模型Agent综述
中科大的Survey从全新情景认知视角对大模型Agent进行综述。先明确Agent是资源约束下的序贯决策与搜索优化系统,其关键是连续决策和路径搜索。接着介绍Agentic AI,它关注系统完成事情的能力。论文提出大模型五层演化理论,揭示能力升级源于情境处理深度。以情境认知视角,指出Agent能力取决于情境组织和更新,给出四环闭环框架。还以OpenClaw为例说明理论在真实系统的落地。最后表明该综述能助读者看清Agent现状与未来方向。

TRAE 中国版首发内置 Kimi - K2.6 模型供免费使用
Kimi 最新发布的 Kimi - K2.6 模型主要优化 AI 编程,涉及推理深度、代理规划质量和多步工具调用可靠性。4 月 20 日晚 Kimi - K2.6 正式发布,TRAE 中国版同步首发,将其作为 IDE + SOLO 模式的内置模型上线,支持图片理解且供用户免费使用。TRAE 持续提供编程领域优质模型,用户升级 TRAE 中国版可体验新模型。
从静态规划到智能体演进:Thoughtworks 携手 AWS 深度解析企业 AI 战略
Thoughtworks携手AWS发布白皮书解析企业AI战略
AI能力飞速演进但发展路径不均衡,企业不能依赖‘既定蓝图’,需为适应性构建。Thoughtworks专家撰写、AWS支持的白皮书提出可组合转型策略,助力企业保持灵活性、构建智能体。白皮书还深度探索核心议题,包括智能体AI从自动化到编排的转变、弥合生成式AI试点项目失败的可靠性鸿沟、拆解智能体五大核心组件,以及建立持续改进闭环,最后引导读者点击‘阅读原文’获取完整版报告。

Meta发布多模态推理模型Muse Spark并投入多领域竞争
Meta发布近一年来首个AI模型Muse Spark,这也是Superintelligence Labs成立九个月的首个成果。它是原生多模态推理模型,支持工具调用和多智能体协同,在部分健康领域和多模态基准测试中领先,但编程和智能体任务有不足。该模型支持文本、图像、语音输入,有三种推理模式及购物模式,可免费使用,API预览面向部分伙伴开放。Meta重新设计训练等流程,采用“思维压缩”和多智能体并行。测试显示其整体有竞争力,token使用效率突出。这是Meta AI实验室重组后首个新模型,转向封闭模式引发开发者担忧,Meta正投入多模态感知等能力,与其他公司争夺企业客户。

文章全方位对比Hermes与OpenClaw两个AI Agent
本文全方位对比Hermes和OpenClaw两个AI Agent。Hermes在七周内实现逆袭,以深度聚焦路线超越走“大而全”路线的OpenClaw。技术上,Hermes有“可写运行时”架构,能自我进化;OpenClaw侧重生态广度和规模化运营。应用场景上,Hermes适用于代码编写等深度场景,OpenClaw适用于多账号运营等规模场景,也可混合使用。二者技能库、自修复机制和Token消耗模型有差异。Hermes优先支持微信,有本地化优势。市场格局从单一平台争霸变为差异化共存。开发者可按需选择,Hermes带来思维革新,但也面临技术和市场风险。市场细分使各方受益,对中国开发者有本地化、进化策略和个人IP资产化等启示。

让大模型「先推理再改药」:DrugR 破解多目标药物优化平衡难题
THUNLP实验室提出DrugR破解多目标药物优化难题
当前大语言模型在药物研发应用中,对分子结构与药理属性关系理解能力存疑。THUNLP实验室提出药物分子优化显式推理模型DrugR,由知识注入、显式推理监督微调和自平衡多目标强化学习模块组成。它有显式推理驱动优化、逆向数据工程等亮点,跨越领域预训练、监督微调、强化学习三个层级训练。评测显示,DrugR综合优化分数远超基线,证明推理链是药物优化核心支撑。同时,它挖掘出多目标失衡、隐式构效关系映射黑盒等痛点,并展示了跨领域迁移能力。该研究为药物优化提供新范式,推动AI辅助药物设计走向可解释、可审查流程。

借助 Gemma 4,将业界领先的 Agent Skills 引入端侧
Google DeepMind推出Gemma 4并开放端侧能力及相关工具
Google DeepMind推出业界领先的开放模型Gemma 4,通过Apache 2.0许可发布,为开发者提供端侧AI开发工具包。它支持多步规划等多种功能,原生支持140多种语言。Gemma 4端侧能力已开放体验,可通过AICore开发者预览版访问。Google AI Edge Gallery上线,推出“Agent Skills”,能扩充知识库、生成交互式内容等。LiteRT - LM可实现Gemma 4跨设备部署,有极小内存占用等特性,在多种设备上性能出色。Gemma 4支持移动端、桌面端、物联网等全平台运行,还推出新Python包和CLI工具,方便开发者体验。

淘天集团跨端技术团队推出代码工具Codeindex
文章介绍了Codeindex工具,它专为解决大模型处理大型代码仓库时的上下文理解难题而设计。该工具提供代码语义化索引、检索及函数依赖图生成能力,利用增量索引与摘要生成技术提升大模型对代码意图的理解,采用分层架构与图数据库精准构建函数上下游依赖关系。它通过OpenAPI和SDK两种形式,支持CodeWiz代码检索、AICR智能代码审查及CodeWiki自动生成文档等应用场景,帮助开发者高效构建基于代码的AI应用。

Gartner 隆重推出全新 AI 工具 — AskGartner
Gartner推出AI工具AskGartner助力高效决策
Gartner推出全新AI工具AskGartner,支持中文提问与回复,能满足管理者高效决策需求。其核心优势是答案依托Gartner权威研究,包括专有洞察、高管互动、行业调研等,每项解答配有直接引文并链接权威研究。它具有即时响应、可信洞察、高效学习、个性化体验等特点,可助用户快速获取权威解答应对紧迫问题,还获IT总监肯定,称其提升分析效率,优势在于底层信息库的广度与深度。
Anthropic让9个Claude Agent花5天做出比人类强4倍的对齐成果
Anthropic用9个Claude Agent做出超人类4倍的对齐成果
Anthropic发表Automated Weak-to-Strong Researcher研究成果,公开代码与博客。其用9个并行Claude Opus Agent组成自动化研究团队,在弱到强监督的对齐问题上,5天就将PGR从人类的0.23提升到0.97。当前AI对齐研究瓶颈是人类研究员不足,Anthropic构建AAR系统,让AI处理定义清晰的问题。该系统架构优雅,不设固定工作流,结果显示9个Agent成果超人类4倍。研究还对比了定向和非定向策略,发现定向更好,非定向存在熵坍缩问题。论文还总结了工程经验,如自主脚手架、模糊方向、LM自演化和本地同步效果更好。

苹果曝光 Siri 新设计,或用 Google Gemini 技术
文章介绍苹果在 WWDC 26 预热图曝光 Siri 新设计。iOS 27 的 Siri 核心是塞进动态岛,唤起时药丸区域扩展,有提示和光标,深色模式更显眼。苹果曾在 iOS 18 重做 Siri 但功能未按时上线,此次回炉重造,想让交互更像现代聊天机器人。新 Siri 补上持续对话、处理多请求、个人上下文和屏幕感知短板,还会成独立 App,合并搜索入口。其大脑基于新基础模型,用 Google Gemini 技术。WWDC 26 6 月 9 日演讲,iOS 27 将预览,新 Siri 大概率是主菜。

实战案例|当本体遇上 Agent:让 AI 真正“听懂业务”并“按规矩办事”【上】
文章介绍本体融入Agent系统及应用案例与优势
文章是“企业级本体应用”系列第三篇,探讨本体融入企业智能体系统问题。先指出本体为AI Agent提供“业务地图”,并非数据库或图谱,其核心是承载业务语义结构与规则。接着说明本体放入Agent系统的架构及价值,介绍构建基础本体Agent的技术,指出使用本体不一定要用推理机。然后通过两个案例展示本体应用,一是用本体做业务规则判断,判断订单加急规则;二是基于属性组合的多维归类,对产品自动分拣打标签。最后说明用本体实现规则推理可提高准确度与可解释性,规则复杂多变时更适用,还解答了规则使用本体与if/else、传统规则引擎的区别。
团队基于OpenClaw/CodeBuddy构建AI全自动化交付框架
文章围绕从提需求到部署发布的全AI全自动化研发展开。当前非编码环节人工多、上下文切换频繁制约效能,将自动化延伸至上下游环节。AI全自动化演进分L1、L2、L3三阶段,2025年处于L2。迈向L3需应对交付流程、需求描述、知识库搭建、核心技能标准化等挑战。实践方面,L2阶段人机协同,打通研发、测试、部署工具链;L3阶段构建工程交付框架,实现全流程自动化串联。基于OpenClaw/CodeBuddy模式试点成果显著。未来认为L3由LLM、Harness Engineering、Business Engineering组成,需构建交付与治理双框架。目前交付框架处于初级阶段,治理框架待规划,后续将整合迁移至AMS平台。
文章阐述AI时代业务诉求进入研发系统方式的变化
文章指出AI时代业务诉求进入系统方式改变,并非都要进研发系统。过去业务诉求默认经产品、设计到研发实现,如今该链路失效。AI改写业务诉求去向,有些应先澄清、复用技能或用NoCode吸收,部分才进研发。文章提出G层(业务诉求分流层),明确诉求交付路径,分G0 - G4五种承接方式;还提及L层(研发执行等级层),处理进入研发后的复杂度分层。AI使研发从默认入口变为特定问题承接方,强化组织分流、路由和承接能力。作者后续将探讨可交数字员工承接的诉求及交付方式。

TRAE 社区共创「技巧便利店」之 Skills 实战技巧篇
TRAE社区分享Skills实战技巧及多方面技能应用
TRAE社区「技巧便利店」根据「好用Skills」征集和投票结果,分享Skills实战技巧。包括基于Skills的多智能体分层协作实践,通过五个层级调度多智能体,设基础规则规范层级;用户@郑柯分享“数据对象体检/修复”技能,可将排查变体检清单并可回滚修复;@大毛分享小程序性能优化Skill,可提升启动、运行性能与用户体验;@周先生拆解“全自动公众号文章生成器”技能,介绍其核心能力、构造,封装技能可节省Token、提高精度。
Google 发布 Android CLI:打造面向 Android 工程的 Agent 能力
Google发布Android Agent开发三件套,提升工程执行稳定性
2026年4月,Google发布Android Agent开发三件套:Android CLI、Android skills和Android Knowledge Base。Android CLI是终端开发主要接口,适合agent且工程动作可标准化,能减少token消耗、提升完成速度,当前处preview阶段。Android skills仓库提供“可操作、可验证”技术规范,覆盖关键路径。CLI将skills作为技能包,经发现、安装、激活连接。Knowledge Base通过命令拉取权威文档作实时上下文。三者组合解决工程动作稳定执行问题,面向任意agent扩展开发环境。
淘宝设计团队以‘金蛋’玩法进行秒杀权益创意设计
文章围绕秒杀权益创意设计展开。作者起初对‘发权益’理解局限,加入秒杀团队后,认识到权益是连接用户与消费决策的触点。以‘砸金蛋’为玩法,因其简单直观且契合用户心智。玩法逻辑围绕用户行为展开,确保体验顺畅。视觉上,金蛋建立一致性又有新鲜感。通过表情等进行功能语义化表达,强化行为与结果关联。节日氛围和品牌换装设计提升用户参与感,让权益发放从‘被推送’变为‘主动发现’。最后强调设计应放大权益被感知过程,让权益成为有温度的互动体验。

米兰先锋团队打造多个沉浸式装置艺术作品
文章介绍米兰沉浸式装置艺术作品。Locus Amoenus由Enter studio & OBR设计,含绿地、风车花园和露台三部分,以公园形态植被为参考;IMMERSIO TEMPORIS是Cranchi Yachts与Christian Grande合作打造,以游艇龙骨悬置诠释时间哲思,解答设计承载时间命题;《Willful Wonder》由Studio INI设计,无设备全裸眼实时原生交互,内置传感器捕捉行人轨迹,翼片随人动作开合,打破多领域边界,让科技与生命共生。

制药巨头 Eli Lilly 向 Insilico 投巨资用于 AI 药物研发
全球制药巨头 Eli Lilly 向 Insilico Medicine 提供最高 27.5 亿美元资金,用于药物发现,这是双方第三次合作。Insilico 自 2014 年成立,用 AI 开发出 28 个候选药物,部分进入临床试验。其运作方式是用自研生成式模型解决靶点发现和分子设计问题,可将药物研发时间从 5 - 6 年缩短到 18 个月。目前虽有很多 AI 药物进入临床阶段,但尚无获批药物。不过,Insilico 的 Rentosertib 在 IIa 期试验有积极结果,显示 AI 药物有实际疗效,AI 能否提高药物临床试验成功率有待观察。

行业首家!百度地图×雅迪首发支持鸿蒙投屏导航,两轮车智慧出行迈入“鸿蒙时代”
百度地图与雅迪联合首发两轮车鸿蒙投屏导航
百度地图与雅迪联合首发支持华为鸿蒙系统投屏导航应用。早在2025年,二者就首发两轮车投屏导航产品,打破“手机孤岛”局限,实现“人 - 车 - 机”多端协同。在骑行安全体验上,百度地图红绿灯倒计时覆盖全国近3000个区县,实时更新禁限行数据。如今合作进入第三阶段,实现鸿蒙系统两轮车导航信息“跨端流转”。该功能为鸿蒙用户带来解放双手、续航无忧、交互顺滑三大体验提升,标志两轮车出行进入“鸿蒙时代”。

携程打造AI员工“程火火”,提升用户体验与业务效果
携程打造AI员工“程火火”,实现全域情感链接。火车票业务面临用户难理解功能、公域信息稀释问题,需变革沟通。“程火火”有两大使命,一是和用户玩起来,在公域通过Vlog、娱乐、剧情、资讯/教程四类内容吸引用户,依据平峰和高峰期匹配不同内容与钩子,国庆高峰内容爆贴率达50%;二是让产品说人话,在站内提高复杂行程解释效率、提供抢票帮助、关照用户情绪。成果显著,账号阅读量飙升3倍。
巧用 PGS 提升玩家留存率|Google Play Games Level Up 计划
Google Play Games Level Up 计划用 PGS 提升玩家留存率
Google Play Games Level Up 计划旨在发掘奖励优质游戏,助力游戏业务发展。Google Play 游戏服务(PGS)可提高曝光与留存率,触达超 20 亿月活玩家。PGS 有多种提升玩家留存的方法,如设置游戏进度奖励、定制推广内容、实现顺畅登录体验;成就功能可吸引玩家,高质量成就可入选 Play 任务活动;推广内容可精准触达潜在受众;玩家资料能集中展示玩家数据,确保玩家顺畅登录并延续身份。
微软亚洲研究院与首师大团队用AI助力甲骨文补合出版成果集
值联合国中文日和安阳华夏文字节,文章回望汉字源头甲骨文。三千年前殷墟甲骨是最早成熟文字系统,但碎片残缺模糊,传统校重难周全。微软亚洲研究院与首师大团队跨界合作推出“AI甲骨文校重助手Diviner”,利用自监督学习技术,从海量无标注残片影像中学习甲骨文特征。双方将AI发现的补合成果集结成《甲骨补合集》,合集中每则补合含原图、叠压图、补合图。这一成果示范科研范式转变,体现科技与人文交融,微软亚研院践行“技术向善”守护文明传承,还设置甲骨文猜字互动福利。
全球信息交互设计年鉴 | 文化遗产数字化展示与信息可视化设计(荷兰)
介绍荷兰三家博物馆文化遗产数字化展示设计案例
文章介绍荷兰文化遗产数字化展示与信息可视化设计案例。荷兰声音与视觉媒体博物馆翻新后成超互动博物馆,有个性化体验、50+互动展品和沉浸式空间,“媒体反应器”连接展区,通过App定制展示。荷兰露天博物馆用LBS多媒体导览APP解决露天展区信息断裂和无形手艺难呈现问题,实现空间叙事可视化、工艺数据图解,还有声景可视化和历史影像叠层。荷兰国立民族学博物馆采用“高密度陈列”,开发互动式数字标签系统,其背后有底层信息化架构支撑,藏品数字化实践是国家战略落地。
AI 接管 Time Profiler?一段 12 秒的 Swift 代码被打到 485 毫秒
作者分享Xcode Time Profiler与AI协作优化iOS代码性能
文章分享用Xcode Instruments Time Profiler + AI协作做iOS性能优化案例。一段读取accessibility元素代码从12秒优化到485毫秒,分四阶段实现25倍优化。介绍优化步骤:先给代码套CLI入口,让AI加Signpost量化性能,从Instruments导出数据,拼成prompt让AI分析。还指出xctrace输出格式和token消耗是瓶颈,强调人易早停,AI可深入挖掘优化空间,最后作者分享了新的性能调优流程。

鹅厂员工分享近期读书方向并邀读者互动送书
文章为“大厂书单”第一期,分享鹅厂员工近期读书方向。一是在AI浪潮中重新理解写代码,如《程序员的自我修养》等;二是技术外的长期判断,像《第五消费时代》等;三是理解系统与自己,有《控制论与科学方法论》等;四是做事做人方式,如《因为独特》等。文末邀读者分享阅读情况,还将抽取5位送书。
沃恩智慧提供学术辅导服务助力科研论文发表
文章介绍了OpenClaw让AI智能体升级为实用“数字助手”,虽顶尖智能体真实任务完成率不高,但为科研带来新机遇。推荐《AI智能体实战》助入门,还提供智能体相关论文合集、创新idea及SCI写作系列课免费领。同时提及写论文缺创新点的困境,给出QS前50名大佬的顶会大模型idea。最后重点推荐沃恩智慧,它是沃尔得教育旗下专注学术背景提升品牌,为学员提供一站式学术辅导服务,导师实力强,保障中稿。

文章探讨AI时代程序员应具备的计算思维
文章探讨AI时代程序员所需的计算思维。指出AI虽能生成代码,但单纯记忆语法价值削弱,真正重要的是计算思维。它包含分解、抽象、模式识别、算法设计四大支柱,是与AI协作的‘内功心法’。还介绍AI辅助编程的六种模式,强调要避免认知外包,将AI作为思考伙伴主动参与。最后指出编程本质是结构化解决问题的能力,鼓励程序员培养计算思维与AI高效协作。

吴恩达谈AI原生小团队适配的‘通才’人才优势
吴恩达在信中指出,AI原生软件工程团队与传统团队运作不同,编程智能体使构建产品速度更快,也带来运营方式变化。团队需花更多时间决定做什么,推进快的团队中工程师有产品能力、PM有工程能力。编程速度提升使设计、营销、法律合规等环节成瓶颈。小团队中‘通才型人才’更具优势,成员要跨领域承担多角色,且团队在同一地点办公可减少沟通瓶颈。信聚焦2到10人AI原生团队,鼓励大家学习技能,把握学习与创造的黄金时代。

2026年4月(约4月初发布,本周仍有广泛讨论)|https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Google DeepMind 推出 Gemma 4 系列开源模型,被描述为“字节对字节最强大的开源模型”。专为高级推理和代理(agentic)工作流设计,提供多个尺寸版本(包括边缘设备适用),采用 Apache 2.0 许可。强调本地部署能力、先进推理性能,旨在让开发者更容易构建智能应用。
2026年4月22日|https://research.google/blog/its-all-about-the-angle-your-photos-re-composed/
Google Research 发布生成式 AI 技术,用于照片重新构图。通过角度调整等方法,让用户照片实现创意重构,结合摄影与 AI 生成能力。
2026年4月21日|https://research.google/blog/reasoningbank-enabling-agents-to-learn-from-experience/
Google Research 介绍 ReasoningBank 框架,帮助 AI 代理从经验中学习,提升长期推理和决策能力,适用于自然语言处理和代理系统。
2026年4月|https://deepmind.google/blog/
DeepMind 本月发布多篇,包括分布式训练新方法 Decoupled DiLoCo(提升弹性分布式 AI 训练)、Gemini 3.1 Flash TTS(下一代表达性 AI 语音)、Gemini Robotics-ER 1.6(增强具身推理的机器人任务)。这些聚焦模型能力、训练效率和实际应用。
2026年4月8日|https://ai.meta.com/blog/scaling-how-we-build-test-advanced-ai/
Meta AI 博客讨论如何大规模构建和测试前沿 AI 系统,分享基础设施和工程实践,强调高效迭代。
2026年4月6日|https://ai.meta.com/blog/segment-anything-model-3/
Meta 发布 Segment Anything Model (SAM) 3.1 更新,通过多路复用和全局推理,实现更快、更易访问的实时视频检测与跟踪,适用于计算机视觉应用。
2026年4月8日左右|https://ai.meta.com/blog/
Meta Superintelligence Labs 介绍 Muse Spark 等模型,聚焦小型高效模型在多模态、推理、健康和代理任务上的表现,强调更低算力下的竞争力。
2026年4月23日|https://openai.com/news/ 或相关产品页
OpenAI 发布 GPT-5.5,号称“最智能模型”,在推理、速度、编码、研究和数据分析上显著提升,支持复杂任务和工具使用。定位为迈向 AI “超级应用”的步骤,上下文窗口扩大,适用于企业与科学场景。
2026年4月21-22日|https://openai.com/news/
ChatGPT Images 2.0 升级图像生成模型,提升文本渲染、多语言支持、多图像推理和视觉保真度,适合生成复杂视觉资产如漫画或营销材料。
2026年4月22日|https://openai.com/news/
推出工作区代理(workspace agents),允许团队构建和共享自主 AI 代理,处理跨工具(如 Slack、Gmail)的复杂任务和工作流,支持上下文收集、审批和持续改进。
2026年4月22日|https://openai.com/research/
开源权重模型,用于检测和编辑文本中的个人信息(PII),达到最先进准确率,增强隐私保护。
2026年4月22日|https://www.anthropic.com/research
Anthropic 发布经济研究相关公告,包括 AI 经济指数调查,基于大量数据探讨 AI 对经济的影响。
2026年4月14日(本周仍有讨论)|https://www.anthropic.com/research
研究使用大型语言模型扩展可扩展监督,实现自动化对齐研究者。
4月中旬|Anthropic 研究页和公告
发布 Claude Opus 4.7 等模型更新,在编码基准上领先,强调专业任务的品味与创意;Mythos Preview 聚焦网络安全能力,但因潜在风险未广泛发布,并启动相关保护项目。
2026年4月23日|https://x.ai/news
xAI 发布最强大的语音代理 Grok Voice Think Fast 1.0,通过 API 可用,支持多语言、快速响应,定价简单。
4月中下旬|https://x.ai/news
包括 Speech to Text API 一般可用(支持 25 种语言,批处理和流式模式)等 API 改进。
2026年4月9日|https://www.microsoft.com/en-us/research/blog/new-future-of-work-ai-is-driving-rapid-change-uneven-benefits/
Microsoft Research 报告讨论 AI 如何快速改变工作,带来不均衡益处,基于五年跟踪数据。
2026年4月22日|https://azure.microsoft.com/en-us/blog/microsoft-discovery-advancing-agentic-rd-at-scale/
Azure AI 扩展 Microsoft Discovery 预览,提供企业级代理 AI 能力,支持研发团队的大规模代理工作流。
2026年4月22日|https://machinelearning.apple.com/research/iclr-2026
Apple 机器学习研究团队在 ICLR 2026 会议上展示多项工作,涵盖基础 ML 和 AI 进展,包括会议参与亮点和论文。
2026年4月23日|https://machinelearning.apple.com/research/large-scale-rnns
Apple ML Research 发布 ParaRNN,提出可并行训练的大规模非线性 RNN,提升效率。
2026年4月21日左右|https://machinelearning.apple.com/updates/apple-scholars-aiml-2026
宣布 2026 Apple Scholars in AIML 博士奖学金,支持新兴 AI/ML 学术领袖。
2026-04-21 · cs.MA, cs.AI · arXiv
大型语言模型智能体团队越来越多地合作处理跨越数天或数周的任务:多日数据生成冲刺,其中生成器、审查器和审计器智能体在重叠批次上实时协调;专家在会话重启时将发现成果延续下去;产品决策在多轮审查中不断累积。这要求智能体跨会话实时共享、评估和整合彼此的认知状态。我们称之为跨会话智能体间认知协作,有别于并行智能体执行。为实现这一点,必须同时解决三个问题。(P1)每个智能体逐字段决定接受来自同伴的哪些内容,而非接受或拒绝整个消息。(P2)每个主张都可追溯到源头,因此返回的主张会被识别为接收者自身先前思考的回...
2026-04-21 · cs.AI · arXiv
生成式引擎(GE)正在通过用基于引用的答案取代排名链接来重塑信息获取方式,然而当前的生成式引擎优化(GEO)方法孤立地优化每个实例,无法跨任务和引擎积累或迁移有效策略。我们将GEO重构为一个策略学习问题,并提出MAGEO,这是一个多智能体框架,其中协调规划、编辑和保真度感知评估作为执行层,而经过验证的编辑模式则被逐步提炼为可重用的、特定于引擎的优化技能。为了实现可控评估,我们引入了用于内容编辑因果归因的双分支评估协议以及DSV-CF,这是一种统一语义可见性和归因准确性的双轴指标。我们进一步发布了...
2026-04-21 · cs.RO, cs.AI · arXiv
在仿生水下机器人中,传统的合作追捕策略学习方法面临着根本性挑战,其中长时程决策、部分可观测性和机器人间协调既需要表达能力,又需要稳定性。为解决这些问题,提出了一种名为基于Mamba的多智能体群体相对策略优化(M²GRPO)的新型框架,该框架在集中式训练与分散式执行(CTDE)范式下,将选择性状态空间Mamba策略与群体相对策略优化相结合。具体而言,基于Mamba的策略利用观测历史捕捉长时程时间依赖关系,并利用基于注意力的关系特征对智能体间交互进行编码,通过归一化高斯采样生成有界连续动作。为在不牺...
2026-04-21 · cs.AI, cs.MA · arXiv
基于大型语言模型(LLM)的多智能体系统(MAS)在复杂任务上展现出潜力,但仍容易出现协调失败,例如目标漂移、错误级联和行为不一致。我们提出显式特质推理(ETI),这是一种基于心理学的协调改进方法。ETI使智能体能够从交互历史中沿着两个已确立的心理学维度——热情(如信任)和能力(如技能)——推断和跟踪伙伴特征,以指导决策。我们在受控环境(经济博弈)中评估ETI,发现它能将收益损失减少45-77%;在更现实、复杂的多智能体环境(MultiAgentBench)中,与思维链(CoT)基线相比,根据场...
2026-04-21 · cs.CR, cs.AI, cs.SE · arXiv
大语言模型辅助的缺陷发现存在精确性危机:看似合理但错误的报告让维护人员不堪重负,并降低了真实发现的可信度。我们提出了“反驳或提升”(Refute-or-Promote),这是一种推理时可靠性模式,结合了用于候选生成的分层上下文搜索(SCH)、对抗性消除指令、上下文不对称性和跨模型评论(CMC)。对抗性智能体试图在每个提升关卡反驳候选缺陷;冷启动审查者旨在减少锚定级联;跨家族审查可以发现同家族审查遗漏的相关盲点。在为期31天、涉及7个目标(安全库、ISO C++标准、主要编译器)的活动中,该流程在...
2026-04-20 · cs.CV · arXiv
视频世界模型在模拟环境动态以响应用户或智能体的动作方面取得了显著成功。它们被建模为动作条件视频生成模型,以历史帧和当前动作为输入来预测未来帧。然而,大多数现有方法仅限于单智能体场景,无法捕捉现实世界多智能体系统中固有的复杂交互。我们提出了\textbf{MultiWorld},这是一个用于多智能体多视角世界建模的统一框架,能够在保持多视角一致性的同时实现对多个智能体的精确控制。我们引入了多智能体条件模块以实现精确的多智能体可控性,并引入了全局状态编码器以确保不同视角观察的一致性。MultiWor...
2026-04-20 · cs.RO, cs.IT · arXiv
本文研究多智能体具身问答(MA-EQA),旨在查询机器人团队在较长时间范围内的所见内容。与现有强调感知、通信或计算性能指标的边缘资源管理方法不同,MA-EQA强调记忆质量。为应对这一范式转变,我们提出基于生成对抗测试(GAE)的记忆质量(QoM)模型,该模型利用前向模拟评估记忆检索,并使用所得测试分数计算QoM值。然后,我们提出以记忆为中心的功率分配(MCPA),在通信资源约束下最大化QoM函数。通过渐近分析发现,发射功率与GAE错误概率成正比,因此优先分配给高QoM机器人。大量实验表明,在各种...
2026-04-20 · cs.CL · arXiv
大型语言模型(LLMs)广泛应用于检索增强生成(RAG),以在推理时整合外部知识。然而,当检索到的上下文存在噪声、不完整或异构时,单一的生成过程往往难以有效调和证据。我们提出了MASS-RAG,这是一种多智能体合成的检索增强生成方法,将证据处理构建为多个角色专门化的智能体。MASS-RAG为检索文档的证据总结、证据提取和推理应用不同的智能体,并通过专门的合成阶段组合它们的输出以生成最终答案。这种设计提供了多个中间证据视图,允许模型在生成答案之前比较和整合互补信息。在四个基准上的实验表明,...
2026-04-20 · cs.MA, cs.AI, cs.CL · arXiv
多智能体系统(MAS)正越来越多地用于开放式创意生成,其驱动力是集体互动将拓宽探索多样性的期望。然而,这种协作何时以及为何能真正扩展解决方案空间仍不清楚。我们对基于MAS的创意生成中的多样性进行了系统的实证研究,涵盖三个自下而上的层面:模型智能、智能体认知和系统动态。在模型层面,我们发现了一个计算效率悖论,即更强、高度对齐的模型尽管每个样本质量更高,但边际多样性却在递减。在认知层面,与初级主导群体相比,权威驱动的动态会抑制语义多样性。在系统层面,群体规模的扩大带来递减的回报,而密集的通信拓扑结构...
2026-04-20 · cs.CL · arXiv
大型语言模型的最新进展凸显了其自动化计算研究的潜力,尤其是在复现实验结果方面。然而,现有方法仍使用固定的顺序智能体管道,全局协调能力较弱,这限制了它们的鲁棒性和整体性能。在这项工作中,我们提出了分层研究智能体系统(HiRAS),这是一种用于端到端实验复现的分层多智能体框架,它采用监督管理器智能体来协调细粒度阶段的专业智能体。我们还发现了Paper2Code基准无参考评估中的局限性,并引入了Paper2Code-Extra(P2C-Ex),这是一种改进的协议,它整合了仓库级信息,并更好地与原始的基...
2026-04-19 · cs.AI, cs.MA · arXiv
大型语言模型(LLM)智能体容易受到提示注入攻击,这类攻击会通过多步骤工作流、工具交互和持久化上下文进行传播,使得仅靠输入输出过滤不足以提供可靠保护。本文提出了SafeAgent,一种运行时安全架构,将智能体安全视为一个针对不断演变的交互轨迹的状态决策问题。所提出的设计通过两个协同组件将执行治理与语义风险推理分离:一个在智能体循环周围调解操作的运行时控制器,以及一个基于持久化会话状态运行的上下文感知决策核心。该核心被形式化为上下文感知高级机器智能,并通过风险编码、效用成本评估、后果建模、策略仲裁...
2026-04-19 · cs.AI, cs.MA · arXiv
将视觉语言模型扩展到视觉多智能体系统(VMAS)受到两个耦合问题的阻碍。首先,通信拓扑在推理前是固定的,使其对视觉内容和查询上下文视而不见;其次,智能体推理能力在部署期间保持静态。这些问题相互强化:僵化的拓扑无法利用更丰富的智能体专业知识,而静态智能体缺乏针对特定查询进行专门化的动力。我们通过SkillGraph解决这一问题,这是一个联合框架,可同时进化智能体专业知识和通信拓扑。在此框架内,多模态图Transformer(MMGT)对视觉令牌、指令语义和活跃技能嵌入进行编码,以预测查询条件协作图...
2026-04-19 · cs.AI · arXiv
大型语言模型与智能体的融合正在催生科学发现的新纪元:智能体科学。尽管科学方法本质上是迭代的,但现有的智能体框架大多是静态的、范围狭窄的,并且缺乏从试错中学习的能力。为了弥合这一差距,我们提出了EvoMaster,这是一个专门为大规模智能体科学设计的基础进化智能体框架。EvoMaster以持续自我进化为核心原则,使智能体能够在实验周期中迭代完善假设、进行自我批判并逐步积累知识,忠实地反映人类的科学探究过程。至关重要的是,作为一个领域无关的基础框架,EvoMaster非常易于扩展——开发人员只需约1...
2026-04-19 · cs.AI, math.AT · arXiv
由大型语言模型驱动的多智能体系统(MAS)存在严重的令牌效率低下问题,这源于两个复合来源:(i)非结构化并行执行,即所有智能体无论输入是否准备就绪都同时激活;(ii)无限制的上下文共享,即每个智能体都会接收到完整的累积上下文,而不考虑相关性。现有的缓解策略——静态剪枝、层次分解和学习路由——将协调视为结构性分配问题,从根本上忽略了其时间维度。我们提出了阶段调度多智能体系统(PSMAS),这是一个将智能体激活重新概念化为对基于圆形流形建模的共享注意力空间进行连续控制的框架。每个智能体i被分配一个固...
2026-04-19 · cs.AI, cs.DC · arXiv
大型语言模型正越来越多地被部署为复杂的智能体系统,其规模随任务复杂度而扩展。虽然先前的工作已广泛探索了模型级和系统级的扩展,但算法级和任务级的扩展在很大程度上仍未得到解决,这限制了智能体系统的全部潜力。在算法层面,分配额外的推理时计算可以增强工作流容量,但会引入跨路径冗余:多个推理分支之间的重叠计算。在任务层面,复杂任务可以分解为子问题并分配给多个智能体,以提高可扩展性和并行性。然而,现有基础设施的调度未考虑多个智能体的存在,错失了优化资源分配的机会。我们提出Hive,一种支持算法级和任务级扩展...
2026-04-20 · cs.CL, cs.AI · arXiv
用户在向基于大型语言模型的智能体提出请求时,往往会遗漏关键细节,导致工具使用的输入信息不充分。这对增强工具型智能体构成了根本挑战,因为API执行通常需要完整的参数,凸显了个性化工具调用的必要性。为研究这一问题,我们引入了MPT基准,该基准包含265个多轮对话,涵盖三个挑战:偏好回忆、偏好归纳和偏好迁移。我们还提出了PRefine方法,这是一种测试时内存增强方法,将用户偏好表示为不断演变的假设。通过生成—验证—优化循环,它从历史记录中提取可重用的约束条件,提高工具调用的准确性,同时仅使用全历史提示...
2026-04-18 · cs.CR, cs.AI · arXiv
模型上下文协议(MCP)是一种在LLM应用中定义和调用外部工具的快速采用标准。MCP的多层架构除了传统的提示注入外,还引入了工具投毒等新的攻击面。现有防御系统存在误报率高、依赖API或需要白盒访问等局限性。在本研究中,我们提出了CASCADE,一种基于MCP系统的三层级联防御架构:(i)第一层使用正则表达式、短语加权和熵分析进行快速预过滤;(ii)第二层通过BGE嵌入结合Ollama Llama3备用机制进行语义分析;(iii)第三层应用基于模式的输出过滤。在5000个样本的数据集上进行评估,结...
2026-04-18 · cs.AI · arXiv
具有可验证奖励的强化学习(RLVR)已成为提高大型语言模型(LLMs)推理能力的一种有前景的方法。在RLVR算法中,组相对策略优化(GRPO)及其变体表现出强大的性能和较高的训练效率。然而,GRPO风格的目标函数在高精度提示(包括已掌握提示(rollout accuracy=1)和多数正确提示(rollout accuracy在(0.5,1)范围内))上存在两个问题。对于已掌握提示,组相对优势消失,导致没有训练信号和不受约束的策略漂移,这可能会导致遗忘。对于多数正确提示,随着准确率的提高,诱导的...
2026-04-18 · cs.CR, cs.AI, cs.OS · arXiv
人工智能代理越来越多地通过模型上下文协议(MCP)调用外部工具(文件系统、网络、API)。这些工具调用是代理的系统调用——对共享状态有副作用的特权操作——然而当今的安全执行完全存在于用户空间中,一个10行的脚本就能绕过它。我提出治理型MCP,一种基于日志概率的安全原语(ProbeLogits,配套论文:arXiv:2604.11943)构建的内核驻留工具治理网关。该网关在6层管道中拦截每个MCP工具调用:模式验证、信任层级检查、速率限制、对抗性预过滤、ProbeLogits门控(承担主要语义检查...
2026-04-17 · cs.CL, cs.AI · arXiv
通用智能体的发展需要从执行简单指令转向完成复杂的现实世界生产力工作流。然而,当前的工具使用基准与现实世界需求仍存在偏差,依赖人工智能生成的查询、模拟工具和有限的系统级协调。为解决这一问题,我们提出GTA-2,一个用于通用工具智能体(GTA)的分层基准,涵盖原子工具使用和开放式工作流。该基准基于现实世界的真实性,利用真实用户查询、已部署工具和多模态上下文。(i)GTA-Atomic继承自我们之前的GTA基准,评估短视距、封闭式工具使用的精确性。(ii)GTA-Workflow引入长视距、开放式任务...
2026-04-15 · cs.CR, cs.AI · arXiv
基于模型上下文协议(MCP)的代理系统的快速普及带来了一类新的安全威胁,现有框架不足以应对这些威胁。我们提出了MCPThreatHive,这是一个开源平台,可自动化MCP威胁情报的端到端生命周期:从持续的多源数据收集,到AI驱动的威胁提取和分类,再到结构化知识图谱存储和交互式可视化。该平台将MCP-38威胁分类法付诸实践,这是一组精心整理的38种MCP特定威胁模式,映射到STRIDE、OWASP LLM应用程序Top 10以及OWASP代理应用程序Top 10。综合风险评分模型提供定量优先级排序...
2026-04-15 · cs.CL · arXiv
大型语言模型(LLMs)通过利用外部工具增强其问题解决能力。然而,在具有海量且不断演变的工具库的开放世界场景中,依赖静态嵌入检索或工具参数记忆的现有方法,分别难以将用户意图与工具语义对齐或泛化到未见过的工具,导致开放世界工具检索和执行的准确性欠佳。为解决这些问题,我们提出了ToolOmni,这是一个统一的智能体框架,通过推理循环内的主动检索和基于事实的执行,使LLMs能够在开放世界中使用工具。首先,我们构建了一个冷启动多轮交互数据集,通过监督微调(SFT)来灌输基础的智能体能力。然后,我们引入了...
2026-04-15 · cs.CL · arXiv
工具调用通过使大型语言模型(LLMs)能够与外部应用程序交互,极大地扩展了其实用价值。随着LLM能力的进步,有效的工具使用越来越多地涉及多步骤、多轮交互来解决复杂任务。然而,由此产生的工具交互增长导致了显著的延迟,这对实时LLM服务构成了关键挑战。通过实证分析,我们发现工具调用轨迹具有高度结构化,符合受限模式,并经常表现出重复的调用模式。基于此,我们提出了ToolSpec,一种用于加速工具调用的模式感知、检索增强型推测解码方法。ToolSpec利用预定义的工具模式生成准确的草稿,使用有限状态机在...
2026-04-19 · cs.SE, cs.AI · arXiv
在基于大型语言模型(LLM)的代码生成中,通常会从同一提示并行生成多个代码候选——例如,在best-of-N采样或多候选代码补全中。这些请求可以通过共同前缀共享KV缓存,但它们的混合专家(MoE)路由重叠程度以及这种重叠如何跨层变化,仍未得到充分理解。我们研究了Qwen3.5-35B-A3B-FP8(256个路由专家,top-8),通过从共享前缀进行基于树搜索的分支生成(851个已完成代码,温度0.7),并使用基于编译器输出的对齐(gcc -S -O0汇编)来控制令牌身份混淆,对结果进行分析。我...
2026-04-17 · cs.AR, cs.AI · arXiv
大型语言模型(LLMs)在生成寄存器传输级(RTL)硬件设计方面已显示出良好进展,这主要是因为它们能够快速提出替代的架构实现方案。然而,单次LLM生成难以持续产出既功能正确又功耗高效的设计。本文提出了HYPERHEURIST,这是一种基于模拟退火的控制框架,它将LLM生成的RTL视为中间候选方案而非最终设计。该系统不仅关注功能正确性,还注重功耗-性能-面积(PPA)优化。在第一阶段,通过编译、结构检查和仿真对RTL候选方案进行筛选,以识别功能有效的设计。PPA优化仅限于已通过编译和仿真的RTL设...
2026-04-17 · cs.LG · arXiv
我们研究了功能多数投票(FMV),这是一种基于功能一致性的大型语言模型代码生成方法,它通过多代代码在测试输入上的运行时执行特征来识别代表性解决方案。我们发现FMV是一种有效的测试时推理策略,在LiveCodeBench上显著提升了性能,且没有产生大量计算开销。此外,我们扩展了功能一致性的用途,并将其作为无标签测试时强化学习的聚合策略。我们证明这提高了保留任务的pass@1,但没有发现超越基础模型性能上限的自我改进证据。
2026-04-16 · cs.CL, cs.AI · arXiv
有效的代码生成既需要模型能力,也需要能够精心构建模型推理和规划方式的问题表示。现有方法会增强推理步骤或将特定结构注入模型的思考方式,但未改变分散的问题条件。受人类将碎片化信息组织成连贯解释方式的启发,我们提出了StoryCoder,这是一种叙事重构框架,可将代码生成问题转换为连贯的自然语言叙事,提供比简单重述更丰富的上下文结构。每个叙事包含三个组成部分:任务概述、约束条件和示例测试用例,并由选定的算法和体裁指导。在HumanEval、LiveCodeBench和CodeForces上对11个模型...
2026-04-15 · cs.SE, cs.CL · arXiv
自动代码生成仍然是软件工程中的一个持续挑战,因为传统的多智能体框架往往受到静态规划、孤立执行、高计算开销以及对复杂任务适应性有限的限制。本文介绍了CollabCoder,这是一种新颖的计划-代码协同进化框架,通过动态多智能体协作来改进代码生成。其核心思想是设计计划模块和代码模块之间的协作决策过程,以决定调试过程中应执行哪个模块。在广泛使用的基准测试上进行的大量实验表明,CollabCoder在各种任务中持续提高代码质量和稳健性。重要的是,CollabCoder在降低计算开销的同时,实现了与当前最...
2026-04-19 · cs.SE, cs.AI · arXiv
从神经机器翻译到智能体工作流的转变彻底革新了自动化程序修复(APR)。然而,现有的智能体尽管具备先进的推理能力,却经常受到“意图鸿沟”的困扰——生成的补丁与开发者的原始意图不一致。当前依赖自然语言摘要或对抗性采样的解决方案往往无法提供精确修复所需的确定性约束。在本文中,我们介绍\textsc{Prometheus},这是一个新颖的框架,通过优先考虑\textit{规格推断}而非代码生成来弥合这一鸿沟。我们采用行为驱动开发(BDD)作为可执行契约,利用多智能体架构从运行时故障报告中反向工程Gher...
2026-04-19 · cs.LG, cs.CL · arXiv
当特定任务标签不可用时,为特定目标语料库选择嵌入模型变得困难。现有的基于核估计器或高斯混合的无标签度量在高维空间中失效,导致排名不稳定。我们提出了一种基于流的无标签表示嵌入评估(FLARE)方法,该方法利用归一化流直接从对数似然估计信息充分性,避免基于距离的密度估计。我们给出了有限样本边界,表明估计误差取决于数据流形的内在维度,而非原始嵌入维度。在11个数据集和8个嵌入器上,FLARE在有监督基准下的斯皮尔曼相关系数ρ达到0.90,并且在高维嵌入(d≥3,584)中保持稳定,而现有的无标签基线则...