228

Agent 百花齐放 & 上下文工程 & 成熟度模型

国内

[阿里云开发者] AI开发 组件迁移 React

从Rax+DX到React,一次跨端组件重写的AI提效探索
本文基于M站首页重构项目,介绍借助AI编程工具Cursor和结构化Prompt,完成从Rax到React的组件迁移、DX到React的跨端重写及业务逻辑优化的过程。阐述迁移面临的挑战,详述AI辅助开发的流程,分析AI提效的优势与局限,总结出可复用的迁移范式。此次实践提升了开发效率,改变工作方式,未来需建立标准流程,培养开发者协作能力。

[阿里云开发者] 大语言模型 推理缓存优化 阿里云

性能最高提升7倍?探究大语言模型推理之缓存优化
文章围绕大语言模型推理缓存优化技术展开。先回顾LLM推理分Prefill和Decode两阶段,前者计算密集,后者IO密集。介绍KV Cache技术,指出传统存在显存增长快等问题。接着阐述各主流框架优化方案,如vLLM的PagedAttention、自动前缀缓存;SGLang的RadixAttention;LMCache可降低TTFT、提升吞吐;DeepSeek的Context Caching用硬盘缓存。最后提及MCP赋能可视化OLAP智能体应用方案。

[阿里云开发者] AI编程 Cursor 重构需求

如何让 AI 成为你的编程搭档?一次真实重构告诉你答案
文章围绕如何让AI(Cursor)成为编程搭档展开。先介绍Cursor是集成AI的代码编辑器,有多种模式,能力强但有局限。接着以重构需求为例,阐述实现过程,包括历史逻辑、接口流程梳理,技术方案设计,代码编写等,还分享踩坑及应对方案。提效总结显示AI提效率达50%,编码阶段提效高。最后展望后续形成开发范式,还提及AI实时音视频互动方案。

[阿里云开发者] Python演进 性能优化 云技术

Python语言从2.7到3.14的能力变化与演进逻辑
文章阐述了Python从2.7到3.14的演进逻辑。编程风格上,语法有革命性变化,类型系统逐步完善;类库生态方面,标准库精简优化,第三方生态爆发式增长;性能优化取得突破性进展,如Faster CPython项目、JIT编译技术;虚拟机技术探索前沿,GIL问题有突破尝试,字节码系统更智能。AI与机器学习、云技术推动其发展,未来将在性能和类型系统上持续改进。

[阿里云开发者] AI编程 Cursor 团队落地

AI 编程如何在团队中真正落地?
文章围绕AI编程工具Cursor在团队落地展开。先指出团队推广存在意愿和能力问题,聚焦能力提升拆解问题。接着给出研发流程规范,涵盖需求、方案设计、开发、Review等阶段;介绍结构化语言表达,包括prompt和概要设计模板;还提出应用级特化沉淀的通用解决方案,降低使用初始难度。最后表示Cursor落地持续进行,期待团队在AI浪潮中获益,还提及MCP赋能可视化OLAP智能体应用方案。

[大淘宝技术] 淘宝直播数字人 服务端工程技术 直播技术团队

淘宝直播数字人:服务端工程技术
文章围绕淘宝直播数字人展开,介绍其核心环节,包括LLM文案生产、互动能力等。对比真人主播,数字人有成本低、可全天候开播等优势。阐述直播数字人形象、音色、人设属性及对应算法,介绍关键流程。工程发展历经人工保障、产品化到智能化阶段,分析各阶段痛点并提出解决办法,如素材自动化审核等。还提及服务端职责、与AI结合方式、任务调度、算法升级及稳定性保障,最后给出未来规划。

[支付宝体验科技] MCP 蚂蚁集团 Agent 应用

MCP 在蚂蚁前端的落地之旅
本文是支付宝体验技术部顾珠彬在全球互联网架构大会的演讲整理。先介绍 MCP 是标准化应用给 LLMs 提供上下文的协议,解决 Agent 应用落地问题,实现工具接入标准化、零成本。接着阐述蚂蚁落地进展,涉及框架研发、市场建设、认证方案等。还指出 MCP 存在占用 Context、安全、前端协议不标准等问题。最后探讨 Agent 未来,鼓励将互联网服务转为 Agent 应用,相信今年是 Agent 应用元年。

[字节跳动技术团队] btrace 3.0 性能数据采集 移动端

btrace 3.0 重磅新增 iOS 支持!免插桩原理大揭秘!
文章介绍 btrace 3.0 版本更新,新增 iOS 支持。该版本提出同步抓栈的 Trace 采集方案,结合动态插桩与同步抓栈。其背景是 2.0 版本接入维护成本高、系统方法信息缺失,苹果官方 Trace 方案使用成本高、灵活性低。双端实现有差异,Android 端分同步抓栈和动态插桩,iOS 端采用同步与异步结合采样。还能进行 Trace 可视化和耗时归因分析。后续将在能力、场景、生态等方面迭代优化。

[ByteDance Web Infra] Midscene 更新汇总 核心功能

Midscene 六月更新汇总:四大核心功能深度解析
本文是 Midscene 六月更新汇总,介绍四大核心功能。全新缓存方案用 XPath 精准定位,有 YAML 缓存文件、双重验证和智能回退机制,提升缓存命中率。结构化 API 支持多种数据提取。回放报告增强版可自定义节点、插入截图和描述,还能导出视频。执行过程数据透视可获取步骤耗时、AI Tokens 消耗等。此外还有 Web 集成、Android 等方面优化,功能已上线。

[腾讯云开发者] 低代码平台 零售系统 架构设计

如何设计一个低代码平台系统,可以运行十四年底层架构不大改?丨架构师系列文集
本文是架构师系列文集第二篇,作者分享运行十四年、底层架构未大改的低代码系统设计。2004 年因 2B 软件迭代要求高,为提升零售管理系统开发效率做此平台。将零售业务抽象为业务对象、业务逻辑、查询,用 SQL 工具构建。还考虑性能、权限、版本管理等。平台迭代支持多架构,适配多数据库,证明低代码可用于复杂核心应用,给从业者启发。

[京东零售技术] 京东小程序 仓颉改造 性能优化

京东小程序JS API仓颉改造实践
本文分享京东小程序JS API仓颉改造实践。介绍京东小程序容器背景、架构,分析性能瓶颈,如API调用使主线程排队、跨线程数据传递延迟大、JS Bridge处理效率低等。以getSystemInfo API为例拆解调用流程,对部分场景分析后进行仓颉改造。仓颉特性助力优化,改造后getSystemInfo执行时间缩短超50%,小程序冷启动性能提升约20%。未来计划扩展更多API改造、探索仓颉多方面应用及跨平台支持。

[快手大前端技术] 快手 前端工程 质量诊断平台

亲历者复盘:快手前端工程质量诊断平台建设与演进之路
本文以快手天守平台核心建设者视角,梳理大规模前端工程质量保障体系演进路径。天守是快手前端工程质量诊断平台,24年末升级为青鸾平台。文章分场景背景、设计思考与实践总结三部分。先探讨程序员价值维度,包括行为价值和架构价值,强调架构价值重要性;指出代码即架构,软件设计复杂根因是变化。

[得物技术] 得物技术 PWA应用 性能优化

正品库拍照PWA应用的实现与性能优化|得物技术
文章围绕得物正品库拍照PWA应用展开,先指出当前正品库补图流程存在上传繁琐、质量压缩等问题,且高分辨率拍摄带来内存压力、PWA内存分配限制等难点。接着介绍基于WebRTC、HTML5 Canvas和Web worker的实现方案。性能优化方面,采用异步上传、Web Worker + OffscreenCanvas等策略。优化后,内存占用降低,用户体验提升。业务上,日均拍摄件数提升330%,人力成本降低,图库流转效率提高。未来还将深入业务挖掘价值。

[高级前端进阶] 小程序容器 架构设计 多平台运行

撸一个小程序运行容器
文章介绍了构建可插拔、多平台运行的小程序容器的实现思路。架构设计关注容器层核心,包括数据 - 视图、基础组件等。容器层实现涉及小程序转换,将 wxml、css、js 转换并打包,生成完整 jsx 文件。运行层完善全局变量和 Page 方法,完成页面渲染。node 层用 express 启动多页应用,支持更新编译。应用层通过判断宿主环境实现 wx API。最后以乐高积木类比,提及可拓展玩法。

[转转技术] 图片识别技术 曹建涛 转转技术

边学边做:图片识别技术的学习与应用
作者在二次元商品项目中遇到拍照识别需求,边学边做记录学习与实践过程。先学习图片相似度基础知识,包括从向量理解、向量化算法、向量数据库、HNSW索引算法及相似性度量。接着解决实际应用问题,如用YOLO目标检测、Label Studio标注数据、训练YOLO模型。最后分享未来系统架构规划及面临的技术挑战,称边学边做收获多,愿交流进步。

[前端充电宝] CSS if() 前端

CSS支持 if / else 了
从 Chrome 137 开始,CSS 加入内联条件函数 if(),可在样式中写判断逻辑,减少 @media 和 @supports 使用,让样式更易维护。if() 能根据条件选样式值,支持 media()、supports()、style() 三种条件,有简洁、直接、灵活的优点。还列举内联媒体查询、内联兼容查询、基于状态的样式等应用场景。

[量子位] 软件3.5 人机交互 认知协作

Karpathy提的“软件3.0”已过时,交互即智能才是未来 | 上交大&创智刘鹏飞
文章指出大神Karpathy提出的“软件3.0”已过时,上海交通大学刘鹏飞团队认为“软件3.5”时代已至。软件发展历经1.0到3.0版本,各有特点与局限。“软件3.5”在保持自然语言易用性基础上,实现人机交互认知层面突破,AI成透明思维伙伴。其诞生源于大模型具备深度思考能力,为认知协作模式提供技术基础,对开发者提出新技能要求,未来人人或成认知架构师。

[火山引擎开发者社区] Prompt Engineering AI技术 评测

Prompt Engineering 快速入门+实战案例
文章围绕Prompt Engineering展开,介绍了Prompt概念,即引导生成式AI模型输出的提示词。阐述编写技巧,如描述清晰、采用合理基本格式。还介绍了上下文学习、思维链、RAG等技术,对比了RAG与微调的差异。通过翻译工具例子展示优化过程,提及Meta Prompt可自动生成提示词。强调评测重要性,一般通过批量跑和打标实现,大模型平台可支持评测。

[十字路口Crossing] 百度、文心大模型4.5、AI开源

百度一口气开源 10 个模型 | 我们深入解读了这份开源技术报告
6月30日百度开源文心大模型4.5系列,含10款模型等,引发关注。报告亮点有:多模态理解能力增强,产品线明确,模型在多测试达SOTA水平,采用创新架构;大模型门槛降低,从框架和架构角度提效,在多硬件可部署;针对不同场景专门训练,用SFT、DPO、UPO方法。还开源工具链和API,打通开发体系,提升开发部署效率。

[数据可视化 AntV] 数据可视化 AntV Context7

Context7:AI 生成更准确的上下文,助力轻松生成 AntV 图表代码
文章介绍了 AI 编程在生成 AntV 图表代码时存在的问题,如代码过时、版本不兼容等。Context7 作为 AI 编程辅助工具,通过 RAG + MCP 协同架构,处理文档并注入准确上下文,提升 AI 理解 AntV 知识的效果。简单任务中,它能助力生成准确代码;复杂任务虽有初始不足,但多次调用可逐步实现目标。AntV 还计划基于其能力打造 MCP 插件。

[数据可视化 AntV] 数据可视化 AntV 文档治理

AntV 六月文档治理:文档 GoodCase 率 8% -> 80%,这半年我们做了什么?
本文回顾 AntV 上半年文档治理成果并展望下半年。上半年围绕文档质量和官网体验优化建设。引入 AI 评测体系提升 G2、G6 文档 GoodCase 率,还为 G2 新增图表知识库文档;推荐 MCP 工具,研发 mcp - server - antv;线下测评获好评,收集问题待优化。完成官网 DEMO 编辑器改造。邀大家参与 OSCP 第四期共建文档。下半年将继续建设可视化社区。

[大转转FE] 编程 Cursor MCP

Cursor + MCP:双剑合璧,解锁极致编程效率
文章介绍了Cursor与MCP结合提升编程效率。先阐述MCP,它是开放协议,统一工具调用规范,解决Function Calling弊端。接着说明Cursor接入MCP,通过MasterGo MCP集成,提供设计画布链接可快速生成页面。还讲述用Cursor开发MCP Server实践,包括生成规则和Server文件。最后推荐相关MCP Server平台,指出二者结合是开发范式升级,让编程更高效智能。

AI 3D建模 设计平台 腾讯混元3D

逆天3D生成AI大模型来了,人人都可以成为三维创作者!
随着生成式AI发展,3D内容创作变革,AI 3D生成工具成新利器。文章介绍四款平台:Meshy.ai专业,适用于游戏等场景;Tripo3D操作友好、生成快,适合小团队;Hyper3D渲染快、格式多,用于商业展示等;腾讯混元3D功能整合,覆盖多类内容生成,适合企业机构。团队可按需选择。

[软件工程3.0时代] 软件工程 大模型 人机协同

大模型在软件工程中的真实能力边界
本文分析大模型在软件工程的能力边界。技术本质上,它在动态推理、数学建模等有瓶颈;工程实践中,跨语言处理、安全合规存在短板。基准测试显示其与人类专家有差距,在代码生成等任务表现较好,但复杂系统设计等难以胜任。2025下半年或在代码准确率等有改进,但复杂设计等仍难突破。大模型是优秀助手,未来“工具化”“专业化”并行,需人机协同。

[蚂蚁技术AntTech] AI多模态评测 蚂蚁技术 罗军

基于大模型的AI多模态评测
2025年罗军在深圳场大会分享《基于大模型的AI多模态评测》。从图、音、视三方面评测,图评测构建VQA - GPT及AI商品图评测方案;语音评测增加指标、多维度构建评测集并采用多种评测方法;视频评测训练模型量化画质。还构建多模态评测benchmark,参与标准制定,论文入选AAAI2025,期待与业界共建。

[Miyue的前端圈] TypeScript 高级类型 规则

让我害怕的 TypeScript 类型 — — 直到我学会了这 3 条规则
文章指出 TypeScript 的高级类型如 infer 和条件类型看似复杂,实则有规律。介绍了三条规则:条件类型类似类型世界的 if...else;裸类型参数遇联合类型会自动分发;infer 可从其他类型提取类型。还提及映射类型,结合条件类型和 infer 能转换现有类型。最后用提取 Redux action 中 payload 类型举例,鼓励读者用所学规则理解内置工具类型。

国外

AI工程 上下文工程 大语言模型

Context Engineering: A Primer
文章指出随着大语言模型成为软件核心,‘上下文工程’取代‘提示工程’成为构建生成式AI应用的关键学科。它将重点从编写提示转移到系统构建信息环境。文中介绍把LLM视为通用、非确定性函数的思维模型,对比了提示工程和上下文工程的差异。阐述了构建上下文的工具,如指令、状态管理等,还给出基于实验和测量的方法论,包括从结果倒推规划和从开始正推构建,助于打造可靠AI产品。

[Thoughtworks洞见] AI辅助软件交付 成熟度模型 演进路径

关于AI辅助软件交付成熟度模型的探讨
文章提出AI辅助软件交付L0 - L5成熟度分级模型,涵盖需求、开发等全流程。L0为无AI辅助传统交付,L1引入基础辅助,L2实现团队协同集成,L3可自主开发复杂系统,L4能自主创新,L5是全自主交付生态。还设计自评工具,从人员、流程等维度评估。最后给出各级演进路径建议,强调企业应结合自身稳步提升AI赋能水平,以业务价值为导向。

[Unity官方平台] Unity引擎 GPU Resident Drawer 小游戏平台

团结引擎新增GPU Resident Drawer--降低小游戏绘制功耗
Unity的Tuanjie 1.6.0版本为小游戏平台引入GPU Resident Drawer,可降低绘制功耗、提升渲染性能。它利用BatchRendererGroup合批、GPU Instancing减少draw call,降低CPU负载。适用于大量Renderer共享相同Mesh和Material的场景,能减少Batches、提升FPS、降低功耗。介绍了快速上手步骤,也指出目前仅支持URP管线等已知问题及原理。

Svelte 更新 社区展示

What’s new in Svelte: July 2025
本文介绍2025年7月Svelte新特性。Svelte和SvelteKit方面,$inspect.trace支持源文件名日志,SvelteKit支持Vite 7和Rolldown。CLI和语言工具上,sv CLI支持Vitest浏览器模式,语言服务器方便搜索符号名。社区展示涵盖应用、学习资源、库和工具等,如shadcn - svelte发布v1版本,还有多个新组件库和工具。

Web Components 渐进式增强 生产示例

You're Overthinking Web Components
文章指出 Web Components 更适合作为渐进式增强工具,而非 SPA 替代方案。介绍了其用于渐进式增强的方法,如为定价卡添加交互;浏览器原生管理水合作用;处理动态内容可克隆服务器端模板。还阐述了传递数据的方式,包括元素属性、自定义事件和自定义元素类方法。通过 Chart.js、Stripe 嵌入式结账集成和应急基金规划器等生产示例展示应用,强调其无需额外依赖,能简化开发栈。

ECMAScript 2025 JavaScript 新特性

What's new in ECMAScript 2025
文章介绍 ECMAScript 2025 的新特性,包括重复命名捕获组、Set 方法、正则表达式模式修饰符、导入属性和 JSON 模块、迭代器助手、Promise.try()、Float16Array、RegExp 转义等。还提到 JavaScript 是 Oracle 注册商标,Deno 团队发起请愿释放该商标,呼吁开发者参与。

[InfoQ] 氛围编程 Chris Anderson Vibes DIY

做App比拍抖音还快?!数据库大佬转行“氛围编程”,一人干掉75%代码,吐槽 vibes“时灵时不灵”
本文讲述数据库大佬 Chris Anderson 转向氛围编程的创业历程。他曾是 CouchDB 重要贡献者,后开发了 AI 驱动的应用构建器 Vibes.diy 和氛围编程数据库 Fireproof。氛围编程可让非专业人士轻松开发应用,开发过程如发 TikTok 般简单。其项目开源,提供不同价格订阅套餐。他认为要先把事情做对,未来应用开发速度或超创作短视频,也探讨了应对欺诈、团队扩充等问题。

[新智元] 上下文工程 AI智能体 LLM应用

「上下文工程」硅谷爆火,Karpathy亲自站台!提示工程瞬间失宠
文章介绍「上下文工程」在硅谷爆火。它因AI智能体兴起而受关注,决定智能体成败关键在于上下文质量。「上下文工程」范畴比「提示词工程」广,是设计构建动态系统,能适时提供信息和工具。它既是科学也是艺术,要综合运用技术,构建完整LLM应用。打造高效AI智能体关键是提供优质上下文,需工程化构建上下文,使LLM完成任务。

上下文工程 智能体 LangGraph

Context Engineering
文章围绕上下文工程展开,指出大语言模型上下文窗口容量有限,构建应用时需管理指令、知识、工具等上下文。在智能体应用中,长任务和工具调用反馈积累会引发诸多问题,因此上下文工程至关重要。文章介绍了写入、选择、压缩、隔离四种上下文工程策略,并阐述了LangGraph和LangSmith对这些策略的支持,帮助开发者实施上下文工程并测试效果。

微软 GitHub Copilot Chat AIGC

突发!微软刚开源GitHub Copilot Chat,超强AI Agent自动化编程
2025年7月1日凌晨4点30分,微软首席执行官分享VS Code的最新AI开源编辑器GitHub Copilot Chat。其亮点是支持AI Agent自动化编程,可执行多步骤编码任务,处理错误。还支持人机协作、MCP协议,有代码补全、自然语言编程、智能自定义操作等功能。虽刚开源,但在GitHub已获1200颗星,很受欢迎。

Agent

[AI先锋洞察] 智能体 大模型 人工智能

智能体综述:起源、演进与大模型时代的新内涵
文章对智能体进行综述,阐述其起源、发展及大模型时代内涵。智能体概念源于哲学和生物学,历经符号主义、连接主义,发展至大模型时代。大模型时代,智能体架构转变,具备更强能力,多智能体协作成研究方向,自主学习能力愈发重要。不过,当前智能体技术面临长期记忆、可解释性与鲁棒性、多智能体冲突解决等挑战。

[InfoQ] Agent框架 Cooragent 开源

卷疯了!这个清华系Agent框架开源后迅速斩获1.9k stars,还要“消灭”Prompt?
本文围绕清华系开源框架Cooragent展开,介绍其特点及王政对Agent发展的见解。王政指出大模型能力提升推动Agent商业化,不同Agent产品差异在使用方式等。当前Agent框架虽多,但在泛化性与精确性平衡等方面有痛点,Cooragent探索“Prompt free”。此外还探讨多智能体协作难点、开源框架注意事项等,认为选择框架要综合考量,且越来越多开发者倾向国内框架。

[PaperAgent] Graph AI Agents 技术综述

一篇Graph+AI Agents最新技术综述
这篇综述提出分类框架梳理Graph与AI Agents结合领域进展,探讨图技术在AI代理核心功能的作用。介绍图与AI代理方法论,及二者相互应用情况。阐述Graph用于Agent规划、执行、记忆管理和多Agent协调的具体方式,如规划中用于任务推理、分解和决策搜索等,还给出代表性应用、挑战和未来机遇,并提供相关文章链接。

[Founder Park] 上下文工程 AI Agent Andrej Karpathy

Karpathy:我不是要造新词,是「上下文工程」对 Agent 来说太重要了
文章围绕「上下文工程」展开,Andrej Karpathy 认为其对 Agent 很重要。它既是科学也是艺术,需精准填充信息。上下文工程拓宽了「上下文」定义,包含指令、用户提示等多方面。它与提示词、提示词工程有区别。构建有效 AI Agent 关键在于上下文质量。Langchain 总结了写入、筛选、压缩、隔离四种落地策略,每种策略又包含不同方法及面临的挑战。

夸克 高考志愿报告 Agent AI 应用

对话夸克 AI:首次揭秘,全国最大规模深度研究 Agent 落地方法论
本文围绕夸克高考志愿报告 Agent 展开。它不到一个月生成超 1000 万份深度研究报告,并行处理峰值达 250 万份任务。该 Agent 能像专家一样为考生定制方案,处理需求冲突。其后台有两大技术支柱,数据上构建壁垒,模型采用多阶段训练。此案例揭示了 AI 深度落地共性规律,夸克也开启通用 Deep Research 邀测,体现了科技普惠价值。

科技、Genspark、AI合作

Genspark超越Manus-集齐OpenAI和Claude官方点名
2025年7月2日消息,OpenAI发布与Genspark深度合作文章,加上此前Anthropic文章,Genspark成国内唯一被两家AI巨头官方点名公司。其与OpenAI合作涉及核心模型与多模态能力、实时语音交互、开发者支持与性能优化;和Anthropic Claude合作包括自适应规划与推理引擎、跨模型动态编排、多功能协同落地,能为用户节省手动操作时间。

[新智元] AI4AI 上海交通大学 ML - Master

超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench
上海交通大学人工智能学院Agents团队提出的AI专家智能体「ML - Master」,在OpenAI权威基准测试MLE - bench中夺冠,平均奖牌率29.3%,大幅领先微软等。它模拟人类专家认知策略,通过创新范式提升AI4AI性能,解决了探索与推理割裂问题。在MLE - bench上展现多维度优势,性能卓越、适应性强且有自我演进能力,为AI4AI发展提供新方向。

[PaperAgent] 信息检索 Agentic Deep Research 未来展望

传统搜索的终章?信息检索正走向“Agentic Deep Research”新时代
文章指出信息检索正走向“Agentic Deep Research”新时代。苹果披露系统级AI助手引发猜想,Google桌面检索份额下滑,LLM原生应用成长。论文探讨从Web Search到Agentic Deep Research的范式演进,介绍研究与社区热度、方法论精要。未来展望包括构建可信Human - in - loop系统、垂直领域专家级深研、结构化 - 组织型深研系统、多模态信息融合以及高效资源管理等方面。

[phodal] AI编程 AI智能体 代码质量

2025 年 AI 编程趋势:智能体 10 倍生产率放大下的“粪围”蔓延
文章探讨2025年AI编程趋势,指出这是体系化跃迁起点。AI编码代理能力超越代码补全,竞争转向工作流等。编程从‘代码直生’转向‘计划先行’,自动验证强化,异步编码兴起,代理协作从单兵到团队。MCP可让AI Agent调用工具。但AI重构缺架构规划,代码重复严重,放大错误,构建代码质量门禁成挑战,需驯服智能体转化其力量。

[AIGC开放社区] AI Agent DeepSWE 强化学习

RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开
2025年7月3日凌晨,Together.ai联合Agentica开源创新AI Agent框架DeepSWE,基于Qwen3 - 32B模型用强化学习训练,所有内容全开源。它在SWE - Bench - Verified测试中表现优异,Pass@1准确率达42.2%,用TTS后提升至59%。其训练基于rLLM框架,采用GRPO++算法,用TTS策略提升性能,证明仅用强化学习训练有效且潜力大。

[深思圈] AI SRE Traversal 软件故障排除

红杉美国等机构4800万美金超大额押注,四位学者做了一个细分领域的AI coding产品
本文介绍获4800万美元融资的初创公司Traversal,其由四位学者创立,专注软件可靠性和故障排除。传统故障排除依赖人力且难应对复杂系统,Traversal的AI SRE agent能理解因果自主诊断。该技术与现有工具集成,提高问题解决速度和准确率。AI SRE市场机遇大,Traversal有评估框架且实际效果好。其成功标志软件行业向智能自动化演进,未来或有更多类似公司出现。

[蚂蚁集团设计] 支付宝 碰一下支付 支付设计

实战案例|今天你“碰一下”了吗?
文章围绕支付宝“碰一下”支付展开。先指出扫码支付存在步骤多、耗时长、受环境影响大等痛点。接着介绍“碰一下”定位,要实现从主动到被动交互转变。其核心设计原则包括直觉化交互、极简主义、多端一致。“碰一下”还有多样玩法,如与品牌IP结合、在特殊场景创新。它应用场景不断拓展,未来支付将更自然、人性、包容,“碰一下”是其中一站。

AmpCode AI编程 代码开发

Cursor与Augment的竞争者:AmpCode 快速入门
本文介绍AmpCode,它是Sourcegraph开发的全流程AI工程师工具。运行在客户端 - 服务器架构,主要AI模型为Claude Sonnet 4。其代码生成能力强,能处理复杂多文件操作。定价分个人/小团队和企业版。支持VSCode等IDE。安装可在VSCode操作,开通赠10美元。内置多种工具,使用时用Ctrl + Enter发送消息。它自称AI软件工程师,有任务管理等优势,还能分享会话,更多信息可看官方手册。

[TRAE.ai] TRAE Agent 软件工程 开源项目

TRAE Agent 在 SWE-bench Verified 上得分 75.2%,并已开源
TRAE Agent 在 SWE - bench Verified 上得分 75.2% 并已开源。它是基于大语言模型的软件工程智能助手,能完成多种任务。在补丁生成上,采用单 Agent 模式,提供多种工具和模型;补丁选择探索了两种策略,Selector Agent 机制更强健。最终在基准集上成功率达 75.2%。开源项目含多种 LLM 支持、丰富工具系统、全面可观测性等,还邀请各方参与。

[InfoQ] AI编程 Factory AI Matan Grinberg

替代 Devin、颠覆 Cursor!AI 编程不再需要 IDE,用并行智能体重构开发范式:MongoDB CEO 高调站台
文章介绍了AI编程工具的发展及Factory AI的理念与特点。起初资深程序员对AI工具警惕,如今看法转变。Factory AI旨在摆脱传统IDE,关注端到端开发流程。其基于“Droid”构建,已在企业获成功并向公众开放,获MongoDB CEO赞扬。Matan Grinberg认为AI使编程重心转移,具备系统性思维的程序员更有价值,未来软件开发将更高效,可解决的问题更多。

[机器之心] GUI智能体 OS - Kairos系统 人机交互

让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统
上海交大、Meta联合发布OS - Kairos系统,以解决GUI智能体“过度执行”问题。该系统引入置信度预测机制,设计协同探测框架和置信驱动交互策略。实验在复杂场景测试集和公开基准数据集上进行,结果显示OS - Kairos在步骤成功率、任务完成率等指标上显著优于基线模型,且能高效实现人机交互。研究还指出其局限性并提出未来工作方向,如实现内部置信度量化、优化交互策略等。

[微软亚洲研究院] 智能体 UI - Evol 微软亚洲研究院

UI-Evol: 让智能体“知行合一”
文章介绍微软亚洲研究院提出的 UI - Evol 方法,旨在解决计算机使用智能体“知识 - 执行”脱节问题。当前智能体虽有知识但任务完成率低、执行不稳定。UI - Evol 是即插即用模块,通过回溯与批判两阶段进化知识,在 OSWorld 测试基准上提升了智能体执行力、稳定性和可靠性。相关论文被接收,未来有望保障智能体在多场景应用。此外还介绍研究院新书《无界》开售。

产品

[深思圈] AI语音客服 Synthflow AI 语音AI

1年15倍增长,硅谷顶级VC投资2000万美金,这家来自欧洲的公司如何在拥挤的AI语音客服赛道杀出重围
文章介绍了柏林创业公司Synthflow AI,它获2000万美元A轮融资,目标是让客服对话自然流畅。其技术有低延迟、避免“幻觉”等突破,无代码平台降低使用门槛。公司从2023年起步,一年15倍增长。它立足欧洲,有隐私合规和人才优势,计划拓展美国市场。语音AI前景好但面临技术、竞争和监管挑战,Synthflow AI有望成领域领导者。

AI客服 Sierra AI Bret Taylor

从 Co-pilot 到 Agentic AI,Sierra 如何改变客服的游戏规则
文章介绍 Sierra AI 如何改变客服规则。AI 客服赛道竞争激烈,但多数产品难解决核心问题。Sierra 提供“公司智能体”,高度定制融入企业流程。其部署团队专业,有定制化方案、噪声抑制技术等优势。采用基于成果定价模式,吸引众多品牌,获高额融资。未来 AI Agent 应聚焦具体业务,Sierra 创始人 Bret Taylor 从程序员成长为战略 CEO,其经历体现硅谷精神。

AI Agent BetterYeah AI 企业级产品

这只「斑头雁」刷新了 Agent 领域的单笔融资纪录:它是谁?从哪来?
文章介绍企业级AI智能体开发平台BetterYeah AI,它获阿里云领投超亿元B轮融资创纪录。核心团队来自阿里钉钉。测评发现其优势明显:有完善工作流,能定制丰富场景,扩展性高。还指出AI Agent落地难,要专注“绿灯区”工作,在合适位置嵌入AI增强能力,利用基础大模型降低成本。最后为AI Agent商业化创业者指明方向,要做专业“数字同事”,解决具体问题,实现商业价值。

[新皮层NewNewThing] AI浏览器 王俊煜 Arc

王俊煜:我对AI乐观,对「AI浏览器」却不那么乐观|AI浏览器(下)
作者王俊煜认为电脑浏览器是为AI提供眼睛和手脚的最佳载体。目前市面上的“AI浏览器”分三类:以Fellou为代表的agentic browser,适合AI爱好者;以Dia为代表的强调浏览功能,设计简洁,体验较好;老牌浏览器增加AI功能。作者对AI乐观,对“AI浏览器”不乐观,因其未形成体验质变,且Chrome等易跟进新功能。作者主力浏览器是Arc,它解决了标签页问题。

[海外独角兽] AI Coding Claude Code 开发者

“10x Cursor”开发体验, Claude Code 如何带来 AI Coding 的 L4 时刻?|Best Ideas
文章围绕Claude Code展开,探讨其在AI Coding领域的表现。开发者因成本低、效率高、异步开发等优势从Cursor迁移到Claude Code。虽CLI热门,但GUI才是未来。Claude Code达L4级别,能自主阅读代码库、自我修正。AI coding产品不足于掌握冷门知识,未来机会在代码运维部署和人机交互优化。Anthropic或成vibe coding的AWS,Coding赢家将是LLM模型和云服务提供商。

[InfoQ] 个人开发者 AI搜索引擎 Scira

个人开发者时代崛起!22岁印度开发者搞的业余项目被马斯克Groq看上,如今用户破6万
22岁印度开发者Zaid Mukaddam开发开源AI搜索引擎Scira,其前身是“MiniPerplx”。该项目核心优势多,工具选用适配。流量激增使成本上升,Groq等公司提供支持。Scira发展佳,入选Vercel AI加速器。此外,还列举Ewan Gower的TinyWow、Only Finders等个人开发者项目,展现个人开发者时代的崛起。

[京东设计中心JDC] 问卷调研 在线样本 数据质量

为什么你的问卷收回的都是“假数据”?一篇讲透高质量问卷数据回收
本文剖析问卷回收假数据问题,介绍问卷调研发展历程、在线样本“原罪”及获取高质量样本方法。过去线下调研成本高、周期长,后在线调研兴起,催生Panel模式。但该模式导致“职业答题者”和数据造假灰产出现,还存在样本偏差。专业机构采用“活水模式”获取样本,设计合理奖励,通过多层次甄别体系控制数据质量,确保问卷真实有效。

设计

[信息与交互设计研究所] AI智能产品 设计 信息交互

AI生成设计:智慧生活,一触即发
本文介绍多款AI智能产品。Spot AI相机可带孩子玩,内置AI帮孩子理解物体、适应学习需求,还能测试知识;MOMO能识别分析婴儿哭声助父母反应;灵活手机控制器可混合现实与虚拟,有多种用途;SUSA概念性AI设备能执行多种功能,采用特殊材料,简化交互。

[信息与交互设计研究所] 民族文化 交互设计 文化传承

当民族文化遇见交互设计
文章指出民族文化是宝藏,但在现代易被遗忘,交互设计为其传承发展开辟新道路。接着介绍多个民族文化与交互设计融合案例,如“古代中国的女性与女性特质”展览用多媒体呈现历史故事;以南京云锦织造工艺为框架进行信息图解;“编织时光”展览让游客参与集体创作;“残瓷心韵”探索汝窑残瓷叙事性视觉设计。

[智行ZXD设计中心] 设计动效 用户体验 智行ZXD

收下这5个丝滑小动效,用户体验UP UP UP!
智行ZXD设计中心在周二轻分享专栏分享了5个线上设计动效案例。Airbnb用信封动效强化邀请仪式感;Zomato以丝滑过渡动画和礼花强化优惠感知;TrainPal用刮涂层动效让领优惠有仪式感;Ixigo用教学动画构建旅行保障感知;Grab用无穷大符号动效强化省钱感知。这些动效可提升用户体验。

[百度MEUX] AI设计 科技动态 六月观察

MEUX「六月」AI设计观察
这是MEUX「六月」AI设计观察,涵盖科技多领域动态。苹果引入「流光玻璃」设计语言,上线AI实时翻译;OpenAI推出o3 Pro;Meta、Topaz有视频相关新功能;沃尔沃推AI安全带;宠智灵发布宠物AI项圈;谷歌DeepMind推出手语翻译模型SignGemma。此外,AI聊天机器人被指控教唆儿童自杀,美国通过相关法案与其他地区监管趋势分化。

[TripDesign] 携程 振动体验升级 触感反馈

触动人心-携程振动体验升级
本文介绍携程振动体验升级项目。随着触感反馈技术发展,振动应用从游戏延伸至移动应用。携程启动振动标准化项目,通过标准化组件线建振动组件库,场景化验证线沉淀最佳实践。还阐述振动含义,确保效果一致;探索应用时机,分激励互动、协助精准控制、操作结果反馈三类,激励互动触点数据提升明显,为企业级体验升级提供思路。

[淘宝设计] 淘宝510周年庆 答题抢免单 设计秘密

淘宝答题抢免单,60+热搜背后的设计秘密!
本文揭秘淘宝510周年庆答题抢免单活动60+热搜背后的设计秘密。品牌创意表达上,以“亲亲我的宝贝”为主题,进行情感化IP重塑,确保跨场景一致和线下视觉延展。玩法设计采用“认知减负”策略,包括动线引导、视觉隐喻、信息前置。还设计用户情绪曲线,规避AI解题,用不同题目和免单方式调动用户热情,最后强调设计创造的情感共振价值。

[信息与交互设计研究所] 用户体验五要素 设计方法 案例分享

设计方法与案例分享:用户体验5要素
文章介绍用户体验五要素分层模型。战略层明确产品目标与用户需求;范围层基于战略定功能和内容范围;结构层规划功能关系,含交互设计与信息架构;框架层将结构转为界面布局;表现层是视觉呈现。还给出设计案例,深色背景搭荧光绿有科技感,排版信息层级清晰,若提升可读性与交互提示体验会更好。

行业/思考

[艾逗笔] AI独立开发 艾逗笔 AI产品

AI 时代如何做独立开发
作者艾逗笔分享AI时代独立开发感悟、经验与行业机会。他近两年做了十多款AI产品,如ThinkAny、ShipAny等。感悟包括要快且精、从小切入、自身造血、构建影响力。经验有AI应用开发SOP、一小时上线方法、ProductHunt打榜等。还指出AI Coding、Agent、Agent Infra、MCP等可投入的方向,鼓励独立开发者抓住AI时代机会。

[凡哥杂谈] AI发展 企业应用 知识管理

2025年AI发展现状报告:AI实干家的操作指南
《2025年人工智能发展现状报告》指出,AI已成为企业竞争力核心。企业布局分传统SaaS、AI - Enabled、AI - Native三类,AI - Native公司增长快。Agentic Workflows崛起,高增长公司积极部署AI代理。模型选择重准确性和成本,训练常用RAG和微调。定价多混合模式,未来或转向基于使用量。企业内部AI投入增长,但员工采纳是关键。腾讯乐享AI知识库可解决知识管理痛点。

[新智元] AI模型融合 AB - MCTS算法 集体智能

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型
新智元报道,Sakana AI提出Multi - LLM AB - MCTS方法,整合o4 - mini、Gemini - 2.5 - Pro与DeepSeek - R1 - 0528模型。该方法用推理时Scaling算法AB - MCTS,让AI高效试错、多模型协作。实验在ARC - AGI - 2基准测试的120个任务上进行,多模型得分远超单模型,能为超30%问题找到正确解,还可根据LLM专长分配任务,推动了将LLMs用作集体智能的边界。

[机器之心] AI公司 ICONIQ报告 AI产品开发

「2025 AI 实战手册」,年收入破亿的 AI 公司都在干什么?
本文围绕 2025 年度「The State of AI」报告展开。该报告由 ICONIQ Capital 团队发布,通过问卷收集 300 家 AI 公司高管回答,聚焦 AI 产品落地。将构建 AI 产品的公司分为「AI 原生」和「AI 赋能」两类,识别「高增长企业」。报告设五个章节剖析 AI 产品端到端流程。还指出 AI 原生公司初代产品在生命周期推动更快、更早成功,47%已实现规模扩张和市场验证,而 AI 赋能型公司仅 13%。

[海外独角兽] AI政策 Jack Clark 中美关系

Jack Clark: 美国 AI 政策的隐形推手,时代的良心还是囚徒?
本文剖析了AI政策重要人物Jack Clark。他出身记者,后成AI政策“沙皇”。他认可中国AI进展,却对中国态度强硬。文中介绍其职业经历,包括曾是唯一报道神经网络的记者,在OpenAI工作4年。他为人温和但算力政策强硬,提出“监管市场”概念用于国内治理。还为美国设计对华五大战略,如算力管制等。最后探讨他是时代良心还是囚徒,因其伦理痛苦与强硬政策存在矛盾。

[深思圈] Replit AI开发工具 Software 3.0

6个月10倍增长,揭秘这家公司如何一步步成为Software 3.0时代的先驱
文章揭秘Replit 6个月10倍增长,成为Software 3.0先驱的历程。它历经14年积累,2024年9月Replit Agent发布是转折点。其在决策上逆向思维,选通用平台和独特网络效应机制。重视高执行力人才,构建技术和社区护城河。营销重社区,创始人领导力进化。推出“基于工作量定价”模式,适应AI时代,还探讨行业变革、竞争格局及创业新机遇等。

[追问nextquestion] 预测性大脑 延展心智 安迪·克拉克

万字追问:如何突破原生大脑局限?
本文从预测性大脑理论出发,探讨人类突破大脑局限的方式。认知哲学教授安迪·克拉克提出,预测构建人类体验,改变预测可改变体验。我们借助外部技术成延展心智的赛博格,如阅读障碍者依赖应用程序。预测性大脑结合实践与认知行为,调用资源解决问题。通过奥拓与因加的例子阐述延展心智理论,指出心智可跨越脑、体和外界,虽有争议,但预测性大脑支持的循环与耦合能解决资源调用难题。

[甲子光年] 百度搜索 AI改版 用户价值

十年来最大改版,百度搜索对自己下狠手|甲子光年
7月2日百度搜索官宣近十年最大改版,推出多款AI新产品、新功能。从产品层看,搜索框变智能框,拍照功能升级,百看功能、AI助手加强,搜索逻辑从‘人适应搜索’变为‘搜索服务人’。其改版呈现‘三层联动’,推动从‘通用化’到‘个性化’等三方向演进。百度搜索以用户价值为导向变革,适应AI时代用户‘需求升级’,开创AI搜索‘新范式’。

[腾讯研究院] AI写作 人类思维 文化霸权

《纽约客》最新撰文:AI教会人类如何写“好”文章,却让真正的好文章消失了
《纽约客》文章指出AI改变写作方式和思维结构,牺牲原创性。麻省理工实验显示用ChatGPT写作的学生大脑活动低、文本趋同;康奈尔研究表明AI辅助写作使答案风格向西方范式靠拢;圣塔克拉拉大学实验说明用AI创意答案更趋同。虽实验规模小,但AI带来的‘平均化’和文化霸权值得理性反思。

魔搭社区 AI开源 中立发展

字节腾讯们齐聚,近万开发者人挤人,魔搭终成所有人的魔搭
本文讲述魔搭社区发展历程。2022年8月小规模评测吸引大量关注,2025年6月30日首届开发者大会上它成中国最大AI开源社区。近3年,托管模型、开发者、贡献机构数量均大幅增长。它从‘阿里项目’变为开放中立社区,服务从模型托管扩张到全生命周期,技术覆盖多领域,还推出MCP广场。其评测文化成熟,创新由开发者主导,走向中立是发展必然,但处理‘企业属性’仍需努力。