Signal #19:AI 工具越来越多,团队要开始管起来了
过去我们讨论 AI Coding,更多是在比较哪个模型更强、哪个 Agent 更好用。但当 Copilot 接入更多模型,Claude 的可用性受到区域和合规影响,Vercel AI Gateway 继续强调模型路由、成本控制、可观测和 fallback,问题开始从“选哪个工具”变成“怎么管一组 AI 能力”——从“选工具”,走向“管能力”。
这意味着,AI 在软件工程里不再只是一个工具,而是一组需要被调度的能力。哪些模型能用,哪些 Agent 能跑,谁能访问私有代码,一次任务最多花多少钱,失败时切到哪里,结果如何进入 Review 和审计,都会变成研发系统要回答的问题。
一句话说:AI Coding 的下一阶段,不是每个人都选一个喜欢的工具,而是研发系统能统一调度一组 AI 能力。

Harness 工程之道:Skill 原理与最佳实践
文章结合项目介绍 Agent Skills 原理及创建实践
文章结合 trade - ab - skill 项目,介绍 Agent Skills 原理与实践。从 Prompt 工程演进到 Skill 工程,解决传统 Prompt 臃肿、复用性低问题。Skill 核心理念是渐进性披露,分发现、激活、执行三阶段。其结构含 SKILL.md 等,触发分自动和手动。作用域分企业、个人、项目、插件四层,优先级有别。最佳实践包括编排正文、知识分层、安全实践、脚本增强、参数传递、测试迭代。还介绍用 skill - creator 从零创建 Skill 的步骤。

AI Agent 的 Skill 系统设计
淘天集团苏雄阐述AI Agent Skill系统设计理念与实践
文章由淘天集团-会员技术团队苏雄所写,阐述AI Agent Skill系统设计理念与实践。指出Skill是能力包,非知识库,要影响Agent完整行为链路。设计遵循上下文预算组织内容,分元数据、正文、资源三层加载;外化可复用部分,脚本、引用和资产各司其职;按任务风险设自由度,用文本、模板、脚本和门控控制;创建流程从例子入手,经规划、编辑、验证、迭代;验证要保护完整性,处理合理化问题;还要处理生态边界,交付前自查。好的Skill是小而准的行为系统,让通用Agent有稳定专业行为。

一文了解|SkillScan 智能体技能安全扫描最佳实践
SkillScan 为智能体技能生态提供全链路安全保障方案
随着 AI Agent 技能生态发展,技能安全性缺乏保障。SkillScan 针对全链路安全问题,从风险全景、检测能力等维度进行了阐述。它将技能安全风险归纳为包体文件、声明层、代码层、网络与资源、开源合规与供应链五大类。针对不同业务场景,如云上技能市场和内场技能共享,提供定制化检测方案。介绍了四种接入模式和安全准入要求,并通过火山引擎多个技能市场落地实践证明其有效性。此外,还给出技能安全开发的七条最佳实践建议,以从源头降低安全风险。

Loop Engineering又是啥?一文讲清企业Agent落地的四层工程进化论
文章拆解企业Agent落地四层工程并给出采纳路径
文章围绕企业Agent落地的四层工程展开,指出如今企业Agent在生产中表现不佳是因用Demo工程方法应对生产系统问题。四层工程包括2022年的Prompt Engineering、2025年的Context Engineering、2026年初的Harness Engineering和2026年中的Loop Engineering,它们是嵌套而非替代关系。各层有其定义、正面影响、落地瓶颈和企业成熟度定位,文章还就企业故障提出四层诊断框架,如客服Agent搞错退款政策是L2层故障。企业应按阶段由内而外、逐层验证采纳,先夯实L1和L2,再建设L3,最后试点L4。不同行业在各层的侧重点有差异,未来可能出现Meta - Loop Engineering,不过当下企业应停止过度投入L1,打好L2基础,重视L3,用L4思维设计。

监督工程: 编排软件的“中环”
文章介绍软件开发中环及监督工程新方法
文章指出软件开发原有的内环和外环模式,因生成式AI和自主编码智能体被打破,出现了全新的‘中环’及‘监督工程’方法。‘中环’是人类判断与机器执行相互摩擦的阶段,其实践包括对齐意图、多智能体合成、差异与行为审查、把关与护栏。监督工程有指导、评估和纠错三大支柱。工程责任扩大,未来需人类判断力管理机器速度。

Code is cheap. Don't write any.——AI Native,程序员如何提升五倍coding效率
作者分享AI Native研发下提升coding效率的Harness方法
文章围绕AI Native研发下程序员如何提升coding效率展开。指出代码正变得廉价,AI使用层级差距在拉大。介绍了Harness方法,基于大模型概率生成、上下文宝贵两个底层事实,提出水流理论和最小混沌单元理念。通过0→1和1→N两个案例复盘Harness流程,包括起手、落spec、推进、转向、验收等环节。还提及代码廉价化引发的四个层级连锁后果,如代码可抛弃、工作方式高速迭代等,最后强调要将方法沉淀成团队能力,点明未来稀缺的是能让大模型在正确边界流动并收回结果的人。

一个让 AI 更有效 Review 代码的 Skills :review-swarm
review-swarm技能让AI更有效进行代码审查
文章介绍了让AI更有效Review代码的技能review-swarm。它采用多Agent并行的Code Review模式,用四个只读子Agent对代码Diff深度审计。其实现逻辑包括确定范围与意图、启动并行审查员、聚合过滤、排序输出和推荐路径。该技能强调并行和专业化,能从多维度审查代码,剔除常见琐碎建议。还举例说明可自定义多个子Agent审计代码,但此方式费Token,且最终需人审核,还提及可参考链接内容生成项目的Agents.md。

AReaL 2.0 正式发布:面向 Agent 应用的 Online RL 微服务架构升级
AReaL团队发布2.0版本升级面向Agent应用架构
随着大模型智能体进入生产环境,其学习进化需从离线转为在线。AReaL 发布 2.0 版本,对面向 Agentic RL 的核心架构升级,将强化学习训练链路重构为在线学习基础设施。传统 RL 训练链路应用与训练侧工程隔离,AReaL 2.0 以 RL as Micro-Service 为核心创新,将能力拆分为服务组件。此版本组件拼接能覆盖既往训练范式,也能拓展新研究方向。实战范例有 Claude Code Agent RL 和 Hermes Agent Online RL。此外,AReaL 融入深度学习生态,与 MindLab 合作,降低使用门槛。它是面向下一代 Agentic RL 系统的架构升级,为智能体持续学习提供起点。

快手AgentX:推荐系统开始自我迭代
快手AgentX团队发布报告,实现推荐系统自我迭代
过去十年推荐系统发展聚焦建模和工程,但日常迭代瓶颈在研发生产方式。快手AgentX团队发布技术报告,提出Agent驱动研发闭环,让Agent成推荐迭代执行主体。在快手App部署中,它跑通完整闭环,3个worker将374个实验想法推进为10个可发布结果,提升了并发实验数、单位人力业务价值,带来业务收益。AgentX将推荐实验拆解为四个阶段,实现可执行、可验证、可进化。其不仅用于线上策略实验,还拓展到模型研究,展示出自我加速能力。通过PCV增强精排分案例,证明其能将反馈转化为更强假设。最后总结它回答了推荐系统自动研发关键问题,未来推荐研发分工将变化,自进化、批量化、Agent驱动的工业推荐研发已释放价值。

今天刚听完的硅谷 AI 工程师实践分享:AI agent 到底怎么才算真正落地
硅谷AI工程师分享AI agent落地实践及相关挑战
作者参加了由Inngest主办、Cursor等联合参与的{AI} in Production小型聚会,记录了两位演讲者的内容。Kash指出软件开发的AI化有三个阶段,多数人停在第二阶段,且展示了Cursor的相关数据。工程师角色发生变化,review工作量上升,需具备判断代码好坏的能力,选择合适模型。很多开发者用AI agent后生产力提升到40%就停滞,异步AI agent能提效但存在merge冲突难题。Sterling介绍了durable agent和deferred function,解决生产环境中AI agent失败恢复和等待反馈的问题。要基于场景和风险信任AI agent,可观测性是基础能力。作者认为工程师核心价值将集中在定义问题和设计系统上。

从AI Coding到Harness Engineering的端到端工程开发实践
应用宝团队分享Harness Engineering端到端工程开发实践
本文记录了应用宝活动平台系统重构时引入Harness Engineering的实践。最初采用对话式AI coding开发,随项目复杂度提升,暴露出单窗口上下文膨胀、缺乏业务知识、无自动化闭环和无法并行等问题。为此构建了包含知识库工程和端到端开发工程的Harness工程。知识库工程将知识结构化沉淀,实现知识生成、检索和新鲜度检测;端到端开发工程通过拆分上下文、状态文件驱动、专家Agent体系、DAG编排和脚本化执行等优化开发流程。实践复盘总结出核心工程原则,目前工程处于起步阶段,有待完善,还对TDD、AI工程架构和代码价值等进行了开放性思考。最后推荐了Mac应用宝。

理解是新的瓶颈?Karpathy:思考可以外包,但理解不能!硅谷工程师给出三层实战技巧
Notion工程师Geoffrey提出理解代码的三层实战技巧
Notion工程师Geoffrey Litt发文指出理解Agent编写的代码很重要,常见观点认为理解是为验证,而他认为是为参与,否则会产生认知负债。他给出三个理解技巧:一是解释,开发/explain-diff技能生成讲解文档,并附交互式小测验;二是微观世界,借助Agent造“世界”帮助理解代码运作;三是共享空间,团队在Notion中基于Agent产出的方案协作。不过有网友认为测验增加工作量且收效甚微。此前行业讨论过算力、数据等瓶颈,而Geoffrey和Andrej Karpathy认为理解才是新瓶颈。

一篇Loop+Harness的自进化Agent最新综述
清华大学发布自进化Agent从自我到元进化的论文
文章分享清华大学关于经验时代,已部署的Agent如何将交互轨迹转化为持久能力,从自我进化到元进化的论文。介绍经验时代已至,未来的Agentic AI将由部署后的交互经验定义。阐述Harness作为经验基础设施,负责组织上下文等,其状态可在部署期间频繁检查修订。还说明技能如何变成可复用程序,记忆如何变成持久状态,环境是智能体经验的天花板。此外,探讨经验固化到参数的方法,以及元进化智能体中谁来控制进化的问题。

Claude Code创始人和龙虾之父都在用循环工程?Claude官方给疯狂烧Token的Loop工程下了一个定义
Claude官方介绍循环工程及分类、预算管理建议
Claude博客更新文章介绍专属AI智能体的“循环工程”。从提示词工程到现在的loop工程,Claude Code创始人等已进入多Agent编排循环编程阶段,前Google Cloud AI总监将其命名为Loop Engineering。Loop工程核心是设计系统让AI自动完成任务。Claude Code团队将循环分为回合制、基于目标、基于时间和主动循环四类。循环输出质量取决于周围系统,设计时有保持代码库整洁等注意事项。循环工程面临Token预算问题,Claude团队给出根据任务选模型等管理预算建议。开发者调侃AI Agent是昂贵的while循环,Loop Engineering是将成本从人的时间转移到Token账单。

OpenAI Codex 官方白皮书,最值得抄的 10 个工作流技巧
OpenAI发布Codex白皮书,介绍10个工作流实用技巧
OpenAI发布Codex白皮书,旨在将AI从‘聊天框’变为‘长期工作系统’。文中介绍10个工作流技巧:为重要工作线开置顶线程;用语音输入模糊想法;工作中追加方向;将记忆写成可检查文件;明确不同工具使用场景;用手机远程处理;给重复任务设自动化;把Goal写成可验证标准;将侧边面板当协作现场;把10个动作连成闭环。普通人可从开置顶线程、建记忆文件、设任务自动化三个最小动作开始实践。

最新!万字综述 Prompt 到 Loop 进化
邱汉宸等综述AI开发范式从Prompt到Loop的进化
文章围绕AI开发范式从Prompt到Loop的演进展开。2023年大语言模型落地早期,人们专注提示词工程,但单轮交互模式有瓶颈。2025 - 2026年,范式迁移至“系统自我迭代”。AI开发范式历经四次核心浪潮:Prompt Engineering解决与AI沟通问题,但有局限性;Context Engineering关注信息投喂,有三种方法论,还涉及信息排列顺序和缓存机制;Harness Engineering把模型外系统组件工程化,有四大核心支柱和“非妥协原则”;Loop Engineering赋予系统自主迭代能力,分三档成熟度,有“五件套 + 一个记忆”,要遵循循环协议。四种范式层层嵌套,Loop Engineering有缓解幻觉、升级自动化控制、基础设施产品原语化等驱动力。开发者可成为Loop Designer,文章还给出复现简易Loop Agent计划。

相比层出不穷的 Agent 框架,不变的 Agent Protocol 是什么
作者围绕Agent Protocol分析Runtime能力并给出开发建议
文章围绕Agent Protocol展开,指出框架虽多但底层问题不变。核心是将Agent Runtime拆分为可协议化对象、操作和状态机。先明确Agent Protocol边界,涵盖标准、对象、Runtime能力,其核心是任务生命周期管理。接着从创建任务与执行步骤、保存状态与中断恢复、连接工具与观察事件、协作审计与评测四个方面分析:执行模型多样且不统一;状态管理是生产级Agent分水岭,涉及持久化光谱、分层等;工具协议易标准化,流式输出需考虑部署形态;多Agent协作碎片化,可观测性和可评测性薄弱。最后总结协议对象与Runtime能力映射,给出设计原则和开发者建议,强调关注Runtime能力而非框架。

刚刚,ZCode登顶 Hacker News!智谱有自己的Claude Code,却被网友质疑“克隆了Codex”?
智谱ZCode v3登顶Hacker News,引关注与价格质疑
智谱专为GLM - 5.2打造的ZCode现v3版本登顶Hacker News头条。它定位类似Claude Code,技术大牛拆解其用nodejs等构建,有804个依赖项等,但认为搜索工具可优化。ZCode受关注原因:功能亮眼,支持长时间任务管理、远程控制、深度集成GLM - 5.2;推广优惠,使用配额提1.5倍;GLM - 5.2是能力强的开源模型。用户体验有好评也指出UI可改进。网友评价分支持和技术疑问两类,还有开发者质疑其价格,未来AI编程工具比拼开发体验和成本。

本地小模型的Claude Code来了,拆解它的完整 Harness!
Datawhale拆解本地小模型Zleap - Agent的Harness设计
文章围绕Zleap - Agent展开,它是为本地小模型设计的自带稀疏注意力机制的Agent Harness。首先介绍了当前Agent圈对Harness和Loop的讨论,指出Harness工程关注循环运行系统。接着详细拆解Zleap - Agent的Harness设计:以Workspace - first为核心,将运行环境切分为不同工作区;在Context层,按工作区切分上下文;Tools层把工具与工作区绑定;Memory层将记忆按人、事、经验分区;Runtime模块记录运行轨迹;Boundary层控制数据、工具、模型和记忆边界。这种设计让Agent在当前任务信息范围内工作,对本地小模型和企业私有化场景意义重大。

AI4AI 技术分享:面壁智能 ForgeTrain 如何 8 小时追平、2 天反超英伟达 Megatron-LM?
面壁智能分享ForgeTrain技术,可快速超越英伟达框架
2026年6月27日晚,面壁智能联合举办「AI4AI发酵夜」活动,技术负责人李宇轩分享了ForgeTrain相关技术。他指出AI能力质变,「AI制造AI」是突破算力和数据瓶颈的路径。他提出「AI制造AI」五个等级,目前L2已站稳,L3少数团队效果不稳定,面壁智能冲击L4。ForgeTrain由AI编写,8小时追平、2天反超Megatron - LM,基于四阶段Harness优化流程。其背后的Forge Engineering主张定制化。此外,还讨论了算法、工程、数据与对齐的开放性问题及Q&A。

用云新范式:Qoder Cloud Agents × Alibaba Cloud Skills
阿里云Qoder Cloud Agents结合Skills革新用云方式
文章指出云计算下一个十年,使用者将从人变为AI。介绍云的四代界面,从Web控制台到Agent,每代都简化用云操作。阿里云将产品能力封装成Skills并开源,Qoder Cloud Agents承担使用这些Skills的任务。文中还描述了Agent用云的四个场景,如一句话部署、睡后运维等,并阐述其带来对运维、数据分析等方面的连锁反应,最后强调Agent是云的最后界面,鼓励开发者等尝试使用。

如何把超级个体的产能,转化成组织能力? | AI跃迁者调研
出门问问李志飞推动组织转型,自研CodeBanana系统
这是一篇“AI跃迁者调研”对出门问问创始人李志飞的访谈。他2025年端午写出近20万行代码做「AI版飞书」原型,后推动组织转型。AI产能无限但瓶颈在人,超级个体价值被高估,超级组织被低估。工作流从线性变原型驱动,他自研CodeBanana让沟通与执行合一。组织转型采取威逼、工具、筛选策略,让非产研成“系统设计师”。超级个体在组织有撕裂感,需延迟满足感过渡。访谈还探讨AI使用习惯、Token消耗、组织与AI匹配度等问题,指出组织转型虽难但必要,也谈及CodeBanana演示、业务转型及新雇佣关系等内容。

从150页PRD到企业项目交付,Spec-Driven第一步怎么走?
网易智企CodeWave SDD平台助力复杂PRD解析与企业应用交付
企业应用开发常因需求梳理不当陷入困境,复杂PRD难处理,存在信息量大但质量不均、传递有信息损耗、现有AI工具难解决上游问题等情况。网易智企·CodeWave SDD平台覆盖从需求文档到可运行系统的完整交付链路,将PRD解析分为文档解析、需求澄清、目录拆解、规范细化四个阶段,大部分工作由AI自动完成,人只需关键节点确认。该平台能保障输出质量标准化与一致性,提升交付效率,减少返工成本。目前网易智企有‘1亿Token计划’,企业可申请试用。

AI UITester:AI Native 的 UI 自动化测试新范式|得物技术
得物技术推出AI Native的UI自动化测试新范式AI UITester
文章介绍AI UITester这一AI Native的UI自动化测试新范式。先指出传统UI测试有迁移成本高、调试效率低、维护成本翻倍等痛点,AI Native可解决。接着阐述其三大能力:一是用例平台数据自动转化,通过自动化Pipeline和LLM增强,结合Wiki知识库,实现描述性用例到可执行脚本的转化;二是AI智能调试与用例自愈,内置智能调试模式,先过滤非业务失败,再进行五类根因诊断;三是VLM驱动的跨平台统一,以“截图→理解→执行”闭环实现三端通用。还提及架构设计取舍,对比传统、AI辅助和AI Native三种方案,最后展示业务成果数据,表明这是测试范式的转变。

五块钱如何花三天:Agent Token 成本如何做成工程化治理
腾讯工程师分享 Agent Token 成本从个人节流到平台治理的实践思路
腾讯应用开发高级工程师 horsley 分享团队可持续使用 Agent、管控 Token 成本的方法。文章指出,真正的问题不是 Token 贵,而是浪费不可见:任务与模型不匹配、上下文持续膨胀、工具和 MCP 输出噪音过多、失败后反复重试,都会让成本在黑盒里被消耗。作者强调,复杂设计、关键判断和疑难排障值得花 Token,真正该治理的是模型错配、上下文膨胀、工具噪音和失败重试等低质量消耗。长期看,省 Token 不应靠个人经验,而要做成平台能力:过程可见、经验可沉淀、实验可回放、环境可统一。

从“AI的指挥者”到“AI的助理”:青岛卓思越如何重构软件交付模式
青岛卓思越借网易CodeWave SDD重构软件交付模式
青岛卓思越信息技术股份有限公司总经理李腾飞称AI实践角色转变。卓思越此前尝试主流AI Coding产品,发现虽能提升开发效率,但未改变软件交付方式。一次内部项目让其认识到网易智企·CodeWave SDD优势,该模式围绕“规格”,关注工程交付,能在需求阶段解决问题,保障项目交付质量。经实践,采用该模式后项目开发周期缩短约75%,成本降低等。未来软件公司核心竞争力将转向需求理解和产品设计能力,软件开发正迈向“规格驱动”新阶段。此外,网易智企·CodeWave有“1亿Token计划”,还有「AI实战派」栏目助力企业。

迈向AI Native:技术团队的范式跃迁与组织进化
快手主站分享AI Native转型实践及组织进化思考
本文为快手主站AIDevops负责人李思演讲内容,分享快手主站AI原生转型实践。89%企业投入AI但生产力提升仅0.29%,个体效能提升而组织效能未变,需围绕AI重新设计研发体系。快手实践中发现用AI工具不等于个人提效,个人提效也不等于组织提效,问题根源在于研发体系结构。为此,快手从信息、流程、组织三层重构研发体系,信息上让AI获取信息,流程采用Agent驱动SDLC,组织上分层交付与守护、溶解产研边界。目前L2成主流范式,交付周期缩短20% - 30%。未来还需解决验证规模化和先锋队模式难题,强调组织要重视人的洞察、远见和温度。

代码产量翻倍,测试、评审排期越拉越长?GitLab2026报告:AI并没有加速研发交付节奏
GitLab报告指出AI研发陷入“悖论”,需提升治理能力
GitLab《2026 AI问责报告》显示,78%开发者认为AI让代码输出更快,73%认为代码质量提升,91%企业用2款以上AI编码工具。但编码快了,软件交付速度却没跟上,陷入“AI悖论”。AI将软件开发瓶颈从编写转移到评审与验证,且代码难控制,多数企业无法回答AI代码相关问题。原因是AI工具落地快,治理规则没跟上。企业注意力已转向代码治理,团队可从立规则、嵌入追溯能力、下游环节AI化、整合工具链四个方向破局。

ROI这口利剑,终于悬在了AI员工头顶
Cognition公司推出用ROI衡量AI价值的Devin产品
过去AI公司按使用量收费,企业AI成本高、生产力回报不清晰。AI编程Agent公司Cognition提出新思路,把Devin完成的工作折算成“等效工程师小时”,换算成美元价值,还推出Productivity Guarantee。Cognition将Devin包装成企业生产力改造方案,证明其值得进入企业预算。其计算AI员工价值分三步:过滤无效工作、估算人类工程师完成任务时间、换算成美元。虽算法有误差,但整体结果会更稳定。客服Agent已按结果衡量价值,不同AI产品计费方式有别,Cognition在软件工程场景建立ROI计算方法,展示了Agent商业化路径。

让 Agent 加入群聊当同事,飞书从多维表格开始打样
飞书发布多维表格智能体,让agent成团队协作成员
文章先介绍Anthropic的Claude Tag让Claude以团队成员身份常驻Slack,实现组织提效。接着讲飞书发布多维表格智能体,让agent以团队成员身份工作。因国内企业协作上下文分散,表格承担轻量级业务系统角色,所以飞书从表格切入。智能体可理解表格结构,按权限工作,还能主动提醒、沉淀经验。内测显示其能处理复杂表格任务,且在多个评测中获第一。最后指出组织提效需完整平台环境,飞书为智能体提供了这样的环境,满足企业将AI融入组织系统的需求。

外部商业大模型,企业到底敢不敢接?
文章剖析企业接入外部商业大模型的归责与审批难题
文章探讨企业接入外部商业大模型生产化调用难题。指出问题关键并非技术或安全,而是出错归责难。私有化部署虽缓解安全问题,但能力不足。大模型与传统外部服务不同,其错误归责不稳定,导致审批签字链缺环,安全部门能否定但难认定。成熟企业将风险拆分,国内配套不足,审批人倾向不批。出路是审围栏,虽堵不死所有风险,但能让使用决策可记录复盘。不过企业因先例效应和难明示接受剩余风险,走不出困境,需过集体授权、分清追责情况、承担后果三道坎。

Gartner:智能体的“大同世界”可能永远不会到来
Gartner研判智能体“大同世界”或难实现并给出发展建议
Gartner研究副总裁蔡惠芬接受采访,谈及智能体AI现状与未来。Gartner预测到2035年代理型AI将创造4500亿美元营收,但可能出现“智能体泛滥”,安全成客户担忧。智能体演进分六段,当前74%案例集中在“简单任务自动化”,以效率变现为主。未来3 - 8年“专家型智能体”将登台,能处理复杂任务,但仍在可控边界内。而完全自主、跨厂商的“智能体生态系统”可能永远不会实现,因其面临缺乏信任、标准化不足、责任难定等问题。Gartner建议技术提供商放弃追求“最聪明”,转向打造“最可信”,提升安全治理能力。

架构师深度测评WorkBuddy:办公Agent的新范式已来!
腾讯云CodeBuddy团队推出办公Agent工具WorkBuddy
2025年底开源AI Agent工具OpenClaw爆火,但产品可及性差。2026年3月9日,腾讯云CodeBuddy团队推出WorkBuddy,定位为普通人的「开箱即用智能同事」,解决了安装门槛高、使用难问题。其核心功能包括三种工作模式、三层记忆系统、多模型自由切换等。经评测,它在代码开发、股票持仓分析、内容创作等场景表现不错,但也存在输出产物对不上、设计技能执行任务卡死等问题。WorkBuddy优点是零门槛、中文理解精准等,缺点是复杂任务稳定性不够、积分消耗快等。总体而言,它代表国产AI办公工具从“对话交互”走向“任务执行”的方向。

设计辅助Agent:如何0-1搭建R2D工作流
团队搭建设计辅助Agent的R2D工作流并总结经验
文章围绕设计辅助Agent的R2D工作流展开。背景上,交互设计师重复工作多,GenUI趋势下矛盾放大,Google的Stitch存在不足。目标是打通AI辅助全链路工作流,分三步推进。搭建过程中,先拆解设计师动作序列并打标签,产出五个skill,虽能生成结构一致设计稿,但视觉有出入。借鉴Stitch思路并调整AI读取顺序,优化链路。二期迭代提升组件应用率。为提升复用性,采取双层效果复查和链接Mastergo搭建闭环通路。迭代复盘得出三点核心经验。现状是完成窄场景深度验证,初步搭建AI与设计师协作范式,明确需沉淀的核心资产。

阿里全面禁用 Claude Code:AI 工具供应链风险浮出水面
MacTalk 借阿里禁用 Claude Code 讨论 AI 工具依赖、风控与供应链风险
文章从阿里全面禁用 Claude Code 说起,讨论 AI 工具进入企业工作流后的供应链级风险。过去一年,国内大厂对 AI 工具相对开放,Claude Code、Codex、TRAE、Qoder、ZCode、CodeBuddy 等工具谁好用谁进入日常工作流;但一旦工具变成习惯和依赖,就会涉及访问资格、账号状态、数据安全、合规、支付、审计和地缘政治风险。Anthropic 在开发者工具中加入不透明的地理识别、代理识别和标记机制后,企业风控动作变得必然。文章认为,AI 时代同样不能被单一模型或工具链锁死,过去是云厂商锁定,现在是 Token、Agent、插件和上下文锁定。

「腾讯云 NoSQL」技术之 Redis 篇:针对集群选举投票冲突的优化方案
腾讯云团队提出Redis集群分片排队选举优化方案
本文围绕Redis/Valkey集群选举投票冲突问题展开。先以5分片集群为例,阐述多主同时故障下传统选举机制因选票瓜分导致无法自动恢复的情况,剖析自动故障转移的判死、选举、切流三阶段,以及副本选举和主节点投票规则。随着集群规模扩大,问题更严重,如128分片集群近半数主节点宕机时,99%情况无法自动恢复。腾讯云团队提出Valkey PR #1018分片排队选举优化方案,引入故障分片排名,让副本按shard_id字典序错峰发起选举,降低选票冲突。该方案分四步实现,有显著效果,不仅解决极端情况,还提升日常可用性,减少选票瓜分、超时重试,加快恢复速度。此外,还有Valkey PR #1009快速失败兜底机制,与其他方案共同保障集群选举。

RAG创新了,MCompassRAG装上了语义指南针
MCompassRAG论文提出给粗chunk加主题元数据的RAG检索新方案
文章介绍RAG检索新论文,指出RAG系统存在chunk切分两难问题,现有方案有额外成本。MCompassRAG提出新方案,给粗chunk加主题元数据当语义指南针。其离线预计算阶段将文档和chunk映射到主题向量,查询时选相关主题分布,抽象去噪后拼接形成丰富表示。训练和推理分离,训练时LLM教师监督,学生模型学习;推理时零LLM调用。实验表明,在6个benchmark上平均IE涨8.24%,延迟降5倍以上,定性验证显示能精准定位。该论文带来范式切换,解决了chunk两难问题。

不改一行代码,看透 AI Agent 的每一次调用
OBI实现AI Agent调用链路追踪及多方向后续计划
文章围绕OBI(OpenTelemetry eBPF Instrumentation)展开,介绍其在AI Agent可观测性方面的应用。AI Agent调用链路复杂,传统APM难以满足观测需求,而按GenAI语义约定埋点存在SDK差异大、规范演进快、多语言适配难等问题。OBI将观测能力下沉到内核,统一拦截HTTP流量,自动提取所需字段。它解决了HTTPS加密问题,实现跨语言协程追踪,通过三级状态机进行协议解析,还能处理SSE流式响应和MCP协议追踪。通过云监控2.0可接入监控,在实际排障中能快速定位召回质量、Token成本等问题。后续,OBI将推进TTFT度量、GenAI专属指标统计等工作。

3 倍于 VectorDBBench 榜首,火山 Milvus 如何把向量检索拉到新高度
火山Milvus优化算法与链路,QPS达VectorDBBench榜首近3倍
文章围绕火山Milvus向量检索展开。大模型使硬件成本制约向量检索规模化,平衡性能指标成难题。火山Milvus上线集成DiskANN + RaBitQ算法,性能版和磁盘版均超开源版。此次进一步优化算法与查询链路,QPS达VectorDBBench榜首近3倍,提升单位资源检索产出,降低部署成本。其通过内存版DiskANN释放高性能图搜索能力;Extended - RaBitQ在压缩率与召回精度间取得平衡,结合DiskANN选择合适压缩粒度;In - Memory Layout优化内存版DiskANN图搜索路径。工程上,查询链路瘦身降低基础延迟,内存与运行时优化提升硬件利用效率。这使资源转化为更高业务吞吐,大幅节省成本。

美团 LongCat-2.0 正式发布:在国产算力集群上完成全流程训练与推理的万亿参数模型
美团发布万亿参数大模型LongCat-2.0并将开源
6月30日,美团正式发布并将开源万亿参数大模型LongCat-2.0,它是业界首个在五万卡国产算力集群完成全流程训练与推理的模型,原生支持1M超长上下文。此前预览版已开放调用,跻身OpenRouter全球大模型调用量前三。LongCat团队攻克了国产算力训练难题,实现稳定训练与低延迟推理。其架构设计围绕代码处理,采用多项技术优化性能。评测显示在编程和复杂任务处理表现优异,内测中能在多种真实场景使用,还推出限时福利,用户可通过API平台体验。

火山引擎发布《企业级 ArkClaw 安全白皮书》
火山引擎发布《企业级 ArkClaw 安全白皮书》
随着生成式人工智能发展,AI Agent 带来安全挑战。火山引擎发布《ArkClaw 安全白皮书》,以企业级智能体平台 ArkClaw 为例,阐述“默认安全、纵深防御、持续运营”安全理念,覆盖安全的全过程。白皮书为政企安全相关人员提供 AI Agent 安全落地参考框架。文中还介绍了 Arkclaw 安全责任共担模型,说明 ArkClaw 托管实例可在企业云环境运行个人 AI Agent。最后,火山引擎表示将继续与各方协作,推动生成式 AI 安全落地。

绞杀AI搜索投毒:基于多智能体编排 重塑复杂Agent的反GEO架构
团队复盘AI投毒问题,用多智能体编排架构构筑防御体系
文章复盘了构建“旅游规划Agent”时遭遇的GEO攻击问题,介绍防御方法。GEO攻击利用RAG系统脆弱点,通过伪造语料使大模型产生认知偏差。单体Agent架构因缺乏事实核查工作流,难以防住投毒。作者团队采用中心化编排器+异构多智能体协作架构,沉淀四套防御机制:收缩数据源建白名单、引入异步交叉验证、用大模型初步清洗、UI强制溯源。此外,还提及业界开源的RAG防毒演进方向,强调工程实现要保持严谨制衡机制。

火山引擎 Supabase 正式融入 Agent Plan,CLI + Skills 保姆级上手教程来了
火山引擎发布Supabase融入Agent Plan的CLI + Skills教程
本文围绕火山引擎Supabase融入Agent Plan展开,介绍了相关产品及教程。Supabase是面向企业应用及Agent研发的AI - Native BaaS产品,Agent Plan是火山方舟的订阅式“Agent套餐包”,二者结合提供一站式服务。教程涵盖:开通Agent Plan及Supabase抵扣,可在控制台操作;安装/更新Supabase CLI及Skills,有直接安装和通过Ark CLI安装两种方式;使用CLI,包括登录认证、配置Agent Plan信息、创建工作区;使用Skills结合Trae,包含使用说明、登录认证、配置信息、创建工作区,还给出开发“待办事项”APP示例,全程用自然语言交互,提高开发效率。

从数据库到 Agent 原生数据底座,火山引擎发布 Agentic 全栈数据管理服务
火山引擎在大会发布Agentic全栈数据管理服务
在2026火山引擎FORCE原动力大会·SUMMER上,火山引擎数据库推出“Agentic Data Management and Services”产品体系并完成全栈升级。当前AI Agent规模飞速扩张,传统数据底座无法适配新业务逻辑,数据库需底层革新。火山引擎数据库转型为该服务提供商,带来五大发布与更新:ContextSearch正式GA发布,搜索正确率提升;Mem0新增功能,支持Agent持续学习;Supabase正式GA发布,成AI后端服务All in One;Milvus向量数据库算法进化;DBCopilot打造安全可控数据库工具服务。这推动数据基础设施为Agent而生,让企业构建应用门槛更低,为行业树立新标尺。

硅基流动IPO,Token工厂不好做
硅基流动递表港交所,“Token工厂”盈利待解
6月30日,仅成立35个月的硅基流动向港交所递表,欲做AI时代“Token工厂”,即统一调度不同厂商芯片,让模型跑起来并按Token量售卖。按2025年词元年吞吐量计,其为“中国独立生态词元供应第一”,但在全市场份额仅1.5%排第四。其有公有云服务和本地部署解决方案两条业务线,前者营收高但毛利率为负,后者毛利率高却面临客户集中和规模化难题。MaaS业务难赚钱,源于高研发投入、租卡成本高和生态位劣势等。其77亿估值、140倍PS溢价,市场赌国产芯片通用中间层和中立策略,但也面临被替代风险。硅基流动IPO赌在时间差耗尽前提升MaaS利用率。

Kimi坐上全球程序员的工位!GitHub Copilot模型菜单中第一次出现开放权重模型
GitHub宣布Kimi K2.7 Code登录Copilot成可选模型
7月1日,GitHub宣布Kimi K2.7 Code正式在Copilot中登录,这是Copilot模型选择器里首个可选的开放权重模型。Kimi由GitHub托管在Microsoft Azure上,按供应商标价计费,个人和企业侧逐步推送。日常编码并非都需旗舰模型,Kimi适合高频、偏执行、面向代码的任务。它在长周期编码等方面有提升,主打长链路编码任务,像代码工程里的脏活。Copilot正从默认助手变为多模型调度入口,企业需考量成本和权限。社区对此反应不一,开发者更看重成本、稳定性等。AI编程进入多模型时代,选模型将成新的工程判断。

把运维能力装进 Qoder,一句话就能定位根因
阿里云将STAROps运维能力装进Qoder助力研发
文章指出研发工程师在线上故障排查时,因工具目标用户错配,存在跨团队沟通损耗大的问题。阿里云STAROps全域智能运维平台,借助运维统一图模型UModel,打通不同运维工具的数据孤岛。该平台能力被延伸到Qoder,研发工程师在Qoder用自然语言提问,就能完成跨域数据查询和根因推理。文章介绍了三个应用场景,涵盖故障排查、深入验证和代码修复。其通过Qoder的Plugin插件机制实现,安全有保障,有三种能力形态。三步即可上手,新用户有积分赠送。这打破了研发和运维间的信息壁垒,提升了团队效率与稳定性。

Amper 正式转正 Kotlin Toolchain ,Gradle 未来何去何从
JetBrains将Amper并入Kotlin Toolchain并发布0.11版本
JetBrains将Amper并入Kotlin Toolchain并推进到Alpha阶段。Amper定位降级,核心能力迁移,命令入口统一为kotlin。Kotlin Toolchain旨在解决Kotlin生态割裂问题,成为统一入口,支持创建、构建等操作。0.11版本支持发布JVM library到Maven仓库,增强Cinterop支持,改善终端输出和IDE同步,使CLI和IDE行为一致,还增加插件开发能力。这意味着Kotlin正从“语言 + Gradle插件”转变为完整工具链生态,Gradle在新项目中“直接可见度”将降低。

[视频] 基于数学算法的“矢量图形羽化”实时渲染技术
蚂蚁集团团队分享“矢量图形羽化”实时渲染技术
2026年4月,W3C与蚂蚁集团联合主办、华为赞助的开发者交流会在杭州举行,专家与开发者交流Web技术。蚂蚁集团吴茂林团队分享基于数学算法的“矢量图形羽化”实时渲染技术。传统高斯模糊羽化算法在移动端有性能挑战,如模糊半径增大使采样次数平方级增长、频繁切换渲染目标消耗GPU带宽。新算法直接对矢量图形进行数学计算,将渲染Pass数减至三个,避免了带宽和功耗开销,性能上GPU耗时优于传统算法,能满足60fps实时渲染需求,效果上支持任意贝塞尔形状等。该技术论文未发表,实现思路和代码待发表后开源。

Google I/O 2026:Android 17 MemoryLimiter 来了,你的 Bitmap 优化做好了吗?
Google 在 Android 17 引入 MemoryLimiter 并给出 Bitmap 优化策略
文章围绕 Android 17 的 MemoryLimiter 展开。它基于设备总 RAM 设定应用内存上限,超量将静默终止进程,目的是防止内存泄漏 App 影响多任务体验。Bitmap 因内存占用大、解码缩放影响帧绘制,成优化重点。文中给出五大优化策略,如缩放、裁剪、选合适像素格式等。还介绍 Android Studio 新工具,可检测重复 Bitmap、集成 LeakCanary 查泄漏、通过 ProfilingManager 捕获线上事件。此外,提及 onTrimMemory 主动释放内存、R8 优化字节码减少内存占用,并给出行动清单。

字节跳动开源Rspack 2.1正式发布:不止构建提速,赋能前端全流程质量把控
字节跳动发布Rspack 2.1,赋能前端全流程质量把控
2026年6月29日,字节跳动开源的高性能Rust构建工具Rspack推出2.1版本。它深度兼容webpack生态,围绕性能体验等四大方向完成多项更新。性能上,内置React Compiler Rust版编译提速7 - 13.5倍,生产构建性能提升16%,支持TypeScript 7使类型检查耗时降60%等。新增特性包括支持import.meta.glob等。产物优化方面,pureFunctions能力稳定,有分支感知依赖裁剪等。周边生态工具如Rsbuild、Rslib等同步升级。Rspack及其工具链可从效率、质量前置、产物与流程多维度支撑软件质量把控。

刚刚,Safari接入MCP协议!AI代码助手终于能看到你的浏览器在干什么了
苹果让Safari接入MCP协议,开放近20个工具助力开发
文章介绍Safari接入MCP协议这一事件。MCP是Anthropic开发并捐给Linux基金会的开放协议,让AI客户端主动连外部工具。Claude等支持MCP客户端,此前可接GitHub等,现苹果将Safari做成MCP服务端,Safari Technology Preview 247内置MCP Server供开发者使用。近20个工具全开放,涵盖调试、性能分析等。过去调试流程繁琐,AI看不到浏览器情况,现链路打通。上手需装Safari Technology Preview 247,按文档接入AI工具,不过这是预览版,稳定性欠佳,正式版时间未知。

AI 浏览器还没捂热,给 Agent 用的浏览器已经来了:Ego Lite
Ego Lite:为 Agent 打造的浏览器诞生
文章介绍了给 Agent 使用的浏览器 Ego Lite。它与给人类用的 AI 浏览器不同,更注重底层操作,将浏览器作为 Agent 工作台。Ego Lite 基于 Chromium,通过 CLI 和 Skills 供 Agent 使用,有 task space 实现隔离和复用登录态。它为 Agent 提供多种操作路径,能让 Agent 拥有可持续工作的前台环境,改变验证方式,对 Vibe Coding 有帮助。普通用户对 Agent 浏览器感知弱,它与 AI 浏览器相辅相成。

[视频] OpenHarmony ArkWeb内核计划与路线图
OpenHarmony Web SIG分享ArkWeb内核计划与路线图
2026年4月,W3C与蚂蚁集团联合主办、华为赞助的开发者交流会在杭州举行。OpenHarmony Web SIG的李广镇分享ArkWeb内核现状与规划。自2024年鸿蒙商用,设备规模增长,ArkWeb以内核统一支持多设备,基于开源升级,关注安全、性能及与W3C标准对齐。生态建设上与伙伴协作,用自动化测试提升兼容性。未来分阶段发展,近期完善生态与协同,中期探索Web与AI结合,长期关注Agentic Web。面临兼容性等挑战,正探索前沿方向,欲引领Web生态。

Flutter 3.44 现已推出|一文详解重磅更新,助力您高效开发
Google 推出 Flutter 3.44 版本,带来多方面重磅更新
Flutter 3.44 版本推出,带来多方面更新。开发者体验上,DevTools 性能提升、Widget 预览改进、支持原生 Apple Silicon,还有 Agentic Hot Reload 等新工具。AI 应用方面,有 Firebase AI Logic、Genkit Dart 预览版等。GenUI 发展势头好,有相关应用和实验。Android 支持 Googlebook 等,引入 Hybrid Composition++ 等。iOS 上 Swift Package Manager 成默认设置,支持 UIScene 等。Web 无障碍和平台工具优化。桌面与 Canonical 合作,有窗口化 API 等。图形和引擎增强,如 Impeller 改进。Framework 方面,Material 和 Cupertino 库解耦,组件功能提升,无障碍功能优化,还有重大变更和弃用。

仅 4B 参数干翻 235B!UI-UX 模型让 AI 真正看懂 App 体验缺陷
支付宝体验技术部开源 UI-UX 多模态大模型检测 App 缺陷
支付宝体验技术部开源 UI-UX 用户体验大模型,致力于解决 App 的 UX 缺陷检测问题。当前检测依赖人工走查,存在成本高、效率低等痛点。该模型以 4B 参数量,在 UXBench 基准上超越众多 2026 年旗舰模型。它基于 Qwen3-VL-4B-Thinking 底座,用任务感知强化学习训练,可完成三大维度缺陷诊断。团队还开源 UXBench 基准,有 2000 条 VQA 样本,覆盖全平台。模型技术亮点包括奖励路由、非对称转移奖励、数据炼金术。最后给出 3 分钟上手方法,并提出垂域 RL、UX 诊断、可解释 RL 奖励三方面启示。

寻找智能的终极收敛:Neuron顶刊提出大脑与AI的统一记忆框架
哈佛、麻省理工学者提出大脑与AI统一记忆框架
2025年6月,哈佛大学、麻省理工学院学者在《Neuron》发表论文,提出贯通人工与自然智能的统一记忆框架。键值(KV)记忆是现代机器学习核心组件,能分离存储与检索表征需求。而认知心理学与神经科学对人类记忆机制研究缺乏统一计算框架。论文指出,大脑记忆系统类似键值分离架构,海马体编码键,新皮层存储值。经典联想记忆有存储与检索目标冲突的局限,键值记忆可独立优化。Transformer自注意力机制是键值记忆典型实现。实验证明海马体损伤会使记忆泛化,其表征会优化区分度。论文还提出遗忘是索引失效而非记忆丢失,且MLP可等价为键值记忆形式,MNIST模拟实验验证了这一点。该框架为理解大脑记忆和深度学习模型提供新视角。

Anthropic 三件事:封号潮,Fable 回归,Sonnet 5 发布
Anthropic现封号潮,Fable回归并发布Sonnet 5模型
6月Anthropic有三件大事。一是Claude Code封号潮,其2.1.91版本起通过“提示词隐写”嵌入环境分类信息,检测使用场景,虽为防转售和蒸馏,但未明确披露,引发争议,官方确认会在后续版本删除。同时,中国区存在“追溯式”风控和“钓鱼式”验证邮件机制。二是Fable回归,美国解除对Claude Fable 5和Mythos 5的出口管制,Fable 5从7月1日起重新开放,此次封禁源于亚马逊报告,官方训练改进版安全分类器解决问题,并提出需统一jailbreak严重性评估框架。三是6月30日发布Claude Sonnet 5,定位为最具Agent能力的Sonnet模型,在多方面有提升且成本更低,已面向所有套餐开放,但社区反馈其实际运行成本高于Opus 4.8和Fable。

巧了,Anthropic与OpenAI同天发力这条AI赛道
2026年6月30日,OpenAI与Anthropic同日发力AI科研领域
2026年6月30日,Anthropic和OpenAI在同一天发力,指向AI下一个主战场——实验室。OpenAI发布研究级评估框架GeneBench-Pro,测试模型在计算生物学中做高阶判断的能力,含129道合成题,覆盖多领域。结果显示,最强模型也有近70%题目做不出,人类专家做一题需20 - 40小时,成本数千美元,AI推理成本仅几美元。Anthropic推出Claude Science,是面向科学家的AI工作台,解决科研工具碎片化问题,有通用协调Agent、60 + 技能等组件,强调可审计性、可复现性,数据不出域,还能从文献综述到论文写作。二者同步发力标志AI for Science进入双轨验证阶段,或带来科研范式变革。

破解AI幻觉黑盒:大模型如何判断自己说的是真是假?
微软亚洲研究院提出新方法破解大模型AI幻觉黑盒
文章围绕大模型AI幻觉展开。AI幻觉指以高可信度输出错误信息,在关键领域危害大。目前业内减少AI幻觉主要有借助外部审查和利用内部神经元激活状态两种方法,但前者无法解释犯错原因,后者真实性信号来源不明。微软亚洲研究院研究员发现AI真假判断源于两条独立信息通路,提出两种检测方法。研究表明AI有提问对照和自我校验两套判别系统,会根据知识类型自动切换且能自知判断机制。基于此设计的混合多检测器和注意力权重调节器,经多模型和数据集验证,提升了检测效果和泛化能力,让幻觉检测从经验驱动走向机制驱动,推动可解释AI发展。
