当 Agent 满天飞,我们应该做些什么?
周刊
国内
[字节跳动技术团队] 动效设计 自研编辑器 抖音团队
Simple Editor - 高效智能地设计动效
文章介绍自研动效编辑器 Simple Editor。先指出 Lottie 存在动效渲染不一致、资产管理低效等问题,现有工具因数据安全、授权费用等无法满足业务需求。接着阐述编辑器技术架构难点,介绍核心功能,如关键帧预设、状态机、Figma 导入、导出 CSS 动画等。最后提出未来规划,包括动画编排、多人协作、资产交付管理优化等,团队为「抖音前端架构 - 互动体验技术」团队。
[火山引擎开发者社区] 火山引擎 MCP安全 AI应用
火山引擎 MCP 安全架构与实践
本文围绕火山引擎 MCP 安全架构与实践展开。先介绍 MCP 核心概念、原理、生态现状及运行模式,以 ECS 服务为例说明交互流程。接着阐述 MCP 官方安全设计原则,分析传统 Web 服务、工具描述投毒等七种安全风险。针对企业级 MCP 生态平台建设的三大挑战,提出覆盖全生命周期的安全架构,包括准入控制、原生设计和运行时防护,方案已落地并持续优化。
[字节跳动Seed] 强化学习 POLARIS 数学推理
Seed Research|4B 模型数学推理接近 235B 表现,Seed 最新强化学习配方全面开源
字节跳动 Seed 联合港大、复旦公布强化学习训练方法 POLARIS,能提升小模型数学推理能力。实验显示,它让 4B 参数开源模型在数学测试中表现出色,且可在消费级显卡部署。其详细方法等已开源。POLARIS 心得是围绕待训练模型设置数据及参数,包括动态调整训练数据、控制采样多样性、引入长度外推技术、采用多阶段训练等,在多模型和评测集上效果显著。
[京东零售技术] 京点点 AI试衣 时尚电商
告别传统拍摄,京点点AI试衣一键搞定爆款服装主图!
文章介绍京东零售技术团队“京点点”推出的AI试衣与京麦A/B实验平台融合方案。传统时尚商家拍摄主图成本高、周期长,“京点点”AI试衣可快速生成不同风格主图和视频。该方案解决了AI试衣的诸多技术挑战,通过创新实践,在618让某男装KA品牌主图订单转化率提升80%+,还实现了成本降低、效率提升等。未来有望实现千人千面试衣、全自动化A/B实验和预测式AI试衣生成。
[京东技术] 大模型 代码管理 知识沉淀
企业和个人基于业务知识和代码库增强的大模型生成代码实践
文章讲述研发新人李明解决公司代码管理难题的历程。起初,他遭遇代码注释少、文档缺失等问题,于是利用大模型与知识库结合破局。先做简单关联索引,后搭建系统解决方案,分三个阶段推进:基础应用提升效率,知识整合解决深层问题,深度应用实现高级功能。不过,仍存在代码生成质量、知识关联准确性等问题待优化。
[大转转FE] 微信小程序 Skyline 渲染引擎 WebView
微信小程序 Skyline 渲染引擎解析:如何突破 WebView 的性能天花板
文章围绕微信小程序 Skyline 渲染引擎展开。介绍其支持版本,指出是为突破 WebView 性能瓶颈而推出,核心是逻辑与渲染分离等。阐述架构,含核心线程职责、分工协作及相比 WebView 的性能提升点。还介绍新特性,如自定义路由、截图组件等。总结其核心优势为多线程架构、性能提升等,并给出使用建议。
[货拉拉技术] iOS崩溃治理 BackBoardServices atexit
iOS疑难Crash-iOS18.0+ 崩溃治理
文章围绕iOS18.0+系统下司机端App出现的崩溃问题展开。崩溃由BackBoardServices库方法触发exit调用,导致C++全局变量对象析构引发。经排查,是系统底层变更,跨进程通信框架连接失效、参数校验异常所致。尝试hook exit等函数失败,原因是iOS 14+的PAC技术。使用[[clang::no_destroy]]和-fno-c++-static-destructors也因无源码和无法影响三方库而无效。最终通过atexit注册清理函数解决,上线后崩溃得到治理且无负面影响。
[快手技术] 快手 多模态大模型 对话式交互
快手对话交互大升级:KuaiMM Conversation 如何用多模态大模型(MLLM)重塑用户体验?
本文介绍快手多模态大模型驱动的对话式交互技术 KuaiMM Conversation。它构建了业界首个短视频驱动的多模态混合对话任务数据集,设计 CoT 驱动的交互框架。数据集有任务多样、业务特色、技术复杂等优势;框架提升模型理解与响应能力。该技术在直播评论和智能客服场景应用效果显著,如提升评论点击量、客服解决率等。未来将基于此技术积累建设 MMAgent 应对挑战。
[前端充电宝] Nginx JavaScript QuickJS
Nginx 正式拥抱现代 JavaScript!
Nginx作为高性能服务器工具存在“太静态”问题,传统配置语法难以满足新需求。njs出现让配置有了逻辑,但早期语法有限。近期Nginx官方宣布njs引入QuickJS支持,其超轻量且支持ES2023标准,让现代JavaScript编程可在Nginx运行。JS在Nginx能做工程化的事,因其开发者多、逻辑清晰等优点而受青睐,已有动态路由等落地场景,JS正成万能胶水语言。
[高级前端进阶] Tailwind CSS 使用误区 设计系统
你以为的 Tailwind 并不高效,看看这些使用误区
文章指出 Tailwind CSS 虽为实用优先的 CSS 框架,但很多团队使用后效率不升反降,原因在于陷入使用误区。文中剖析六大误区,如把 Tailwind 当低配版 SCSS、滥用 @apply、用默认色板等,并给出对应建议,如组件用原子类组合、配置 Design Token 等。强调正确使用思维是构建语义原子设计系统,规避误区才能提升效率。
[前端技术进阶] 前端框架 xmcp Vercel
Vercel 又出王炸,业界首个 TypeScript MCP 前端框架开源!
Vercel 开源业界首个 TypeScript MCP 前端框架 xmcp。它简化开发流程、降低入门门槛,有文件系统路由、热加载等特征,已在 Github 以 MIT 协议开源且获超 0.5k star。介绍了基础用法,可用 create - xmcp - app 搭建项目,部署选 HTTP 传输。还提及项目结构、工具文件要素,以及自定义中间件和 webpack 配置的方法。
[Miyue的前端圈] 前端开发 FCP优化 性能指标
告别白屏!首屏加载(FCP)优化实战
文章围绕FCP优化,助力前端开发者告别白屏、提升用户体验。先点明白屏危害大,引出FCP指标,它指首次内容绘制时间。接着介绍测量方法,还提及LCP和TTI。随后阐述优化策略,包括资源优化(代码分割、图片懒加载与格式优化、字体优化)和传输优化(预加载资源、用HTTP/2、利用CDN)。最后总结要点,鼓励开发者实践并期待后续构建优化分享。
[AndroidPub] 移动开发 Swift Kotlin
Swift 进军 Android,Kotlin 该如何应对?
2025年6月25日,苹果成立Swift Android Workgroup,目标是让Swift原生运行在安卓上。Swift适配安卓可统一双端开发,增强苹果技术话语权。Swift Android工作组正推进相关工作。Kotlin作为谷歌安卓“亲儿子”,有庞大开发者社区,但Swift背后有苹果,生态整合力强。开发社区看法不一,Swift支持安卓或使开发者分流,影响Kotlin开发者生态。不过,谷歌可能加大对Kotlin投入,这场竞争会推动移动开发技术发展。
[数据可视化 AntV] AI SVG图 设计
AI 直出 SVG 图,看这一篇就够了
文章围绕AI直出SVG图展开。先介绍SVG优势,如无损缩放、轻量、可编辑等,结合AI能提高设计效率。对比SVG与栅格图,阐述不同AI工具生成SVG的优缺点及适用场景。还通过测试对比各AI平台能力,给出提示词结构、模板以生成高质量SVG。最后说明SVG二次优化编辑方法,指出该技术可提升设计效率,但设计思维仍重要。
[腾讯技术工程] GO语言 发展前景 编程语言
未来5~10年,GO语言的发展前景会怎么样?
文章围绕未来5 - 10年GO语言发展前景展开讨论。有人认为它使用舒服、无历史包袱,且互联网大厂推进使用,云业务重要使其作为云技术基础会发展好,在云原生工具、微服务等领域有优势,还可能重构AI基础设施。但也有人不看好,觉得在AI时代难有作为,且其前景依赖谷歌支持,还存在设计问题等,不过也强调语言只是工具,开发者应关注自身能力。
[腾讯云开发者] 多Agent技术 AI发展 未来趋势
AI智能体全面爆发:一文吃透多Agent技术发展与进化
文章围绕AI Agent展开,先介绍人工智能中第一性原理及其在图像识别进化中的应用。接着阐述基于第一性原理的人类活动组织方式和Agent协作技术的五个发展阶段。又说明Agent具备算力、知识记忆等能力。对未来,认为协作将从层级到网状结构,系统更自主智能。未来技术会朝大模型专业化等方向发展,且不同Agent协作阶段都有意义,尤其在医疗领域或有突破。
[腾讯云开发者] RAG架构 技术演进 大语言模型
RAG彻底爆了!一文读懂其架构演进及核心要点
本文梳理了检索增强生成(RAG)架构演进。先介绍RAG概念、优缺点,它能解决大语言模型知识有限、易产生幻觉问题,但依赖知识库质量。接着阐述四代架构:Naive RAG简单但检索和生成有缺陷;Advanced RAG增加预检索和后检索步骤提升召回质量;Modular RAG将系统模块化,有多种编排模式;Agentic RAG引入智能体增强灵活性。最后总结各架构特点并给出应用思考。
[得物技术] 社区搜索 离线回溯系统 得物技术
社区搜索离线回溯系统设计:架构、挑战与性能优化|得物技术
文章围绕社区搜索离线回溯系统展开。先介绍背景,提及长周期用户互动特征利用不足及迭代效率问题,引出离线回溯。接着阐述架构,含全局、在线、离线架构。指出开发中面临任务执行、一致性校验等挑战。针对离线任务耗时、一致性验证归因难等问题给出解决方案。最后展望未来,尝试离在线数据与逻辑一致性方案,此次特征回溯为后续工具化奠基,有望推动算法模型迭代。
[大淘宝技术] 大模型领域 发展综述 AI架构
2023-2025大模型领域2年发展综述
本文回顾2023 - 2025年大模型领域发展。2023年GPT - 4引领唯参数规模论,2024年该范式遇挑战。2024年起,为提升效率,出现MoE架构、新型注意力机制。2025年推理走向台前,计算资源向推理阶段转移,强化学习用于教授推理。各模型架构哲学不同,Benchmark评估分化。未来或探索具身智能、后Transformer架构,现代AI架构转向效率、推理、智能体三大支柱。
[大淘宝技术] ReAct Agent Java 供应链
200行极简demo - 学习如何手搓一个ReAct Agent
文章是构建极简ReAct Agent的Java实践教程。先介绍ReAct核心是“思考 - 行动 - 观察”循环,接着给出200行代码实现,定义工具、记忆等类,阐述核心逻辑。以补货计划单催审为例,展示两轮对话执行过程,体现ReAct原理。最后指出该demo省略部分处理和细节,鼓励探索复杂场景,介绍了作者所在团队。
[阿里云开发者] Web渗透测试 大语言模型 漏洞检测
大模型如何赋能 Web 渗透测试?
文章围绕大模型赋能Web渗透测试展开。传统Web安全检测方式有局限,大语言模型可提升漏洞发现覆盖率与准确性。以mcp server为基础,介绍自动化漏洞检测方案,包括环境搭建、实践操作。实践中遇到大模型API的token限制、插入payload格式、准确调用tools、HTTP报文二次加密等问题并给出解决办法。还指出大模型优势与不足,最后提及进一步拓展方向,如发现历史流量漏洞、资产指纹识别等。
[阿里云开发者] AI 机器学习 大模型
AI 基础知识从-1到0.1:带你走进机器学习的世界
文章带领读者走进机器学习世界,先介绍AI、ML、DL及大模型概念,指出机器学习核心流程为记忆、制定、预测。接着阐述数据、特征、标签等基础概念,讲解线性回归。按列维度分数据为数值和分类数据,按行维度分有标签和无标签数据。介绍监督、无监督、强化学习及特征工程。还提及Token、向量化、Embedding,解释大模型需显卡原因,最后说明模型应用于业务的大致过程。
[奇舞精选] 产品级Prompt设计 Claude系统提示词 AI交互
从 Claude System Prompt 看产品级 Prompt 设计
文章基于Claude 3.7系统提示词,分析产品级Prompt设计。Claude提示词模块化,含引用规范、工件管理等模块。其设计原则有明确性、结构化等。细节设计体现在引用机制、工件管理等方面。未来趋势包括标准化、动态自适应等。还给出代码开发场景Prompt设计案例及常见误区解决方案,强调系统提示词是AI交互从指令到系统的转变。
AI Infra 模型训练 模型推理
入局AI Infra:程序员必须了解的AI系统设计与挑战知识
文章分享传统后台工程师技术栈和方法论向AI系统的迁移,拆解AI Infra挑战。硬件上,从CPU到GPU核心转变,呈现“AI大型机”特性;软件方面,涉及深度学习框架、GPU和Python编程。模型训练要解决存得下和算得快问题,如应对中间激活OOM、用模型并行和通信计算重叠。模型推理挑战是降延时和提吞吐,可采用CUDA Graph、KV Cache等技术。AI Infra虽有新挑战,但可借鉴传统Infra经验。
[前端之巅] Web 框架 Hono 后 React 时代
GitHub 2.5万星!日本开发者打造的Hono火了:定义后React时代微框架的轻量未来
本文介绍了日本开发者创建的 Web 框架 Hono。它基于 Web 标准,小巧、简单、速度快,最初为 Cloudflare Workers 构建,现可在多运行时使用。Hono 应用场景多样,可作 Express 现代替代品。其元框架 HonoX 处于 Alpha 阶段。与 Next.js 相比,Hono 轻量级、专注服务器层、对边缘网络友好,反映了 Web 开发从一体化框架转向适中框架的趋势。
[PaperAgent] AI记忆系统 MIRIX LLM智能体
Multi-Agent记忆系统MIRIX:比RAG性能飙升35%,存储减少99.9%
现有AI Agent记忆方案有局限,多依赖平面化记忆组件。为此提出MIRIX,一个模块化多智能体记忆系统。它由六种记忆类型和多智能体框架组成,支持多种检索功能。多智能体工作流能并行更新记忆。在ScreenshotVQA测试中,MIRIX比RAG基线准确率提高35%,存储需求减少99.9%;在LOCOMO测试中性能远超现有基线,为记忆增强型LLM智能体设定新性能标准。
国外
ECMAScript 2025 JavaScript 新特性
ECMAScript 2025: The best new features in JavaScript
本文介绍 ECMAScript 2025 中 JavaScript 的新特性。新增全局 Iterator 对象,提供 map、filter 等函数式操作符,可包装可迭代对象,实现惰性求值,提升性能;Set 类新增交集、差集等方法;支持直接将 JSON 作为模块导入;正则表达式新增 escape 方法及内联修饰符语法;Promise.try 方法能确保结果为 Promise,统一处理同步和异步错误;新增 Float16Array 类型数组及相关方法,适用于高性能计算。
[Founder Park] OpenAI 规范编写 软件工程
OpenAI核心研究员:比提示词工程更重要的,是spec-writing
OpenAI研究员Sean Grove在演讲中提出,编程真正价值是结构化沟通,非代码本身。完善规范才是真正“源代码”,应捕捉意图和价值观。规范可用于训练模型,具备可组合、可执行等特性。规范是跨角色通用语言,未来IDE或成“集成思维澄清器”。他呼吁重视规范,还成立“Agent稳健性团队”推动通用人工智能发展。
[AIGC开放社区] 谷歌 Gemini嵌入模型 AIGC
谷歌发布首个嵌入模型:MTEB排行榜第一,超过OpenAI
今天凌晨谷歌发布首个Gemini嵌入模型,刷新MTEB榜单记录成第一,超OpenAI,每100万token仅0.15美元且开放API。该模型架构基于Gemini双向Transformer编码器,采用均值池化和线性投影,用MRL技术支持多维度输出,以NCE损失函数训练。训练数据针对检索和分类任务有不同生成策略,且经Gemini过滤。训练分预微调和精调两阶段,还用Model Soup技术提升泛化能力。
[Gartner公司] 代理型AI Gartner 商业价值
Gartner预测到2027年末,超过40%的代理型AI项目将被取消
Gartner预测到2027年末超40%代理型AI项目会因成本、价值、风险问题取消。当前多数项目处早期,受炒作驱动易被误用,供应商‘代理洗白’现象严重,实际有代理能力的供应商少。不过,代理型AI仍代表AI重大飞跃,预计到2028年应用比例将显著提升。Gartner建议企业早期仅在有明确价值时使用,挖掘价值要关注整体生产力。
AI agent METR报告 指数级增长
7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律
非营利研究机构METR报告显示,AI agent能力呈指数级增长,在9项基准测试中,其可完成任务的time horizon平均每7个月翻一番。研究拓展评估至多领域,构造概率模型估算time horizon。前沿模型o3翻倍时间更快,中位数约4个月。不过time horizon并非在所有测试中都能完全反映性能,若翻倍趋势持续,未来AI或能完成更长期任务。
[AIGC开放社区] AIGC OctoTools 复杂推理AI
斯坦福开源复杂推理AI Agent,融合超10种工具
文章介绍斯坦福开源的复杂推理AI Agent OctoTools。传统AI助手应对复杂任务能力有限,OctoTools融合11种工具,在多领域16项基准测试中准确率高。其基础构件工具卡片封装工具功能和元数据,具动态性。规划器像‘大脑’分析查询、制定方案,执行器如‘四肢’执行命令并反馈结果,上下文验证器验证结果、调整计划。开源地址为https://github.com/octotools/octotools 。
视频理解,Deep Video Discovery,智能体
Deep Video Discovery: 打造能“看懂”长视频的智能体新标杆
面对长视频理解难题,微软亚洲研究院提出 Deep Video Discovery(DVD)智能体。它将长视频分割,利用 LLMs 推理驱动,灵活调用工具求解问题。核心是“观察 - 推理 - 行动”循环,由多粒度数据库、工具集和 LLMs 构成。在多个长视频基准测试中,DVD 表现卓越,如在 LVBench 上大幅超越现有工作。行为分析为智能体设计等提供参考,未来将探索更强智能体系统。
产品
ChatGPT 统一智能体 AI
刚刚,奥特曼放出ChatGPT「统一智能体」!惊呼真AGI,最卷打工人来了
2025年,奥特曼带队发布ChatGPT「统一智能体」(ChatGPT agent),它融合三大AI优势,可自主思考决策、上网工作,还能直出PPT和Excel。该智能体在多项测试中表现优异,如HLE、FrontierMath等。Pro、Plus和Team用户可开启体验,额度不同。其具有人力和代码杠杆价值,或重塑企业架构,直播中有两位华人学者出镜。
[十字路口Crossing] 秘塔 Deep Research AI
秘塔的 Deep Research 做得怎么样?| 在深度测评后,我们发现了 2 个亮点
文章介绍了秘塔新推出的Deep Research功能。它在基准测试中表现亮眼,尤其在中文互联网环境。其亮点包括:采用‘研究思路链’交互设计,展示完整推理过程;搜索专业度、深度、广度佳,能找到大量学术资料;沿用AI讲解,方便用户深度学习;可生成高完成度互动式网页;谨慎对待信息,会给出可信度分析。整体走出差异化竞争路径,有较大想象空间。
[一泽Eze] Kimi K2 AI模型 代码测试
Kimi 的新模型,真的好用吗?
本文作者对 Kimi K2 模型进行了两天测试。Kimi K2 是总参数 1T、激活参数 32B 的 MoE 模型,主打代码与通用 Agent 任务,完全开源。在代码生成测试中,它与 Claude、Gemini 相比不落下风;在 Agent 任务测试里,能稳定完成实际项目的 Coding Agent 任务,费用低。Kimi K2 展现出接近国际顶尖模型的能力,在代码和 Agent 能力上进步明显,准备好迎接 AI Agent 应用浪潮。
[极客公园] AI浏览器 Genspark Chrome
AI 上新|这个 AI 浏览器,替我给女朋友打了「分手电话」
本文介绍 Genspark 公司及其 AI 浏览器。该公司 2024 年推 AI 搜索,2025 年转向 AI Agent 并推浏览器。其 Super Agent 成绩不错,ARR 达 3600 万美元。Genspark 浏览器功能强大,如自动研究、全网比价、电话代打、视频总结与 PPT 生成等,但部分功能国内受限。它完成 Office 三件套搭建,不过界面杂乱,学习曲线长。当前 AI 浏览器热门,却未达颠覆式创新,Chrome 虽有历史包袱但用户难迁移。
社交商务 Nectar Social 姐妹创业
两姐妹离职Meta创业,融资1060万美金,把社媒变成销售渠道,用AI打造现代商业的操作系统
本文介绍两姐妹离职Meta创立Nectar Social,获1060万美元融资。当下传统营销漏斗坍塌,消费者购买路径改变,Nectar Social解决品牌在社交互动中的人力难题。其有三重创新,姐妹创业背景使其具独特优势。该平台还涉及病毒式传播策略、连接社交与商业结果等。社交商务正重塑商业逻辑,未来十年将成主流,Nectar Social引领变革。
[十字路口Crossing] TicNote评测 AI硬件 出门问问
98 小时深度实测 TicNote,出门问问上市后的首款硬件做得怎么样?
本文是对出门问问上市后首款硬件 TicNote 的 98 小时深度评测。它轻薄便携,与手机互联丝滑。在会议场景,具备 AI 总结、转录、语音增强等功能,能生成思维导图、深度研究大纲等,还可制作播客,所有内容可一键分享。在学习场景,可作语音笔记本,精准记录 Aha 时刻,但 Shadow AI 解析专业术语会有幻觉。总体产品完成度高,提升了工作学习效率。
[Founder Park] AI社交创业 创业复盘 情侣AI应用
16 个月、45 万资金投入,一款 AI 社交产品的创业失败复盘
本文是一款名为“抱抱窝”的情侣AI社交工具创业失败复盘。项目历时1年4个月,约35人参与,耗费45万资金,APP完成开发后无力迭代推广。复盘从多方面展开,如创业应做SWOT分析,选方向要明确标准、思考商业闭环,团队组建要平衡成本质量速度、合理分配股权,还需明确时间表,加强沟通,让需求更靠谱、简化步骤。
设计
[腾讯ISUX] 设计趋势 AI 苹果
ISUX「六月」行业设计趋势速递
本文介绍2025年6月行业设计趋势。谷歌发布M3 Expressive设计语言、更新iOS App图标、上线Search Live语音搜索功能,且Imagen4登陆Gemini;Airbnb视觉刷新并推出新图标动画方案;字节推出图像Agent「小云雀AI」;Apple award 2025国区App获奖;Midjourney推出首个视频生成模型V1;苹果公开Liquid Glass新风格,跨5大平台统一界面。
民俗文化设计 文创产品 古老艺术
民俗文化设计:让古老的艺术焕发新的生机
文章介绍了民俗文化设计让古老艺术焕发生机的案例。噙瑞将MOC积木设计与恩施傩面具结合,让傩面具以新形式呈现;泡泡龙怪用声音交互视觉设计让琉璃圪嘣更生动;北京邮电大学把京剧教学与AR技术结合制作拼图;晓也设计将敦煌图案与象棋、日历结合,打造有文化特色的文创产品。
行业
[追问nextquestion] 人工智能 大模型进化 人类认知跃迁
智能跃迁:像大模型一样进化
文章围绕大模型进化探讨人类智能跃迁。先介绍大模型从对话型到推理型的发展,如GPT-4.5是对话型终点,GPT-o3开启推理新纪。接着阐述人类可借鉴大模型进化经验,包括为人生定宏大目标函数、用随机梯度下降优化人生、合理分配注意力。最后指出AI时代人类与AI的知识领域差异,强调人类应向知识创造者转型,掌握“非共识”知识,以应对挑战、把握机遇。
[学术头条] AI CoT监控 安全措施
AI教父联名OpenAI、DeepMind、Anthropic:警惕CoT!
今日,Meta 挖走思维链(CoT)论文第一作者 Jason Wei,或使 OpenAI 损失巨大。同时,OpenAI、DeepMind、Anthropic 等与研究员发表立场文件,呼吁深入研究 CoT 监控技术。文件指出 CoT 可监控能察觉 AI 不良意图,但当前可监控性或因训练范式演变削弱。作者列出研究方向,强调监控有局限,还为开发者提保护利用 CoT 可监控性建议,呼吁多层监控。
大模型 后训练
大模型竞赛转向:决胜关键为何是“后训练”?|甲子光年
文章指出大模型价值主战场向后训练转移。先是介绍Grok 4强大性能源于后训练,后训练能知识精炼、能力对齐、推理增强,其重要性超预训练。接着说明产业落地中通用模型有知识断层、难对齐用户偏好等难题,后训练是解决途径。还提及后训练新趋势,如训练方法转向SFT+RL或纯RL等,夸克高考大模型是成功实践。最后强调后训练有五大关键要素,阿里云可提供一体化支撑。
[InfoQ] ToB软件 AI Coding 无代码平台
中国ToB软件公司想赚钱,先对AI Coding祛魅
文章指出中国ToB软件公司想盈利,需对AI Coding祛魅。AI Coding虽能提升专业开发者效率,但服务“公民开发者”时存在不稳定因素,如生成代码不安全、未考虑架构等。“Code + GenAI”在企业定制交付中有复杂业务难实现等问题。而“ No Code + GenAI”的无代码平台更适配“公民开发者”,虽面临交互设计等挑战,但短期内是解决企业软件定制的最优解,市场潜力大。
[Founder Park] AI Jason Wei 验证者定律
o1 关键人物 Jason Wei 回应「AI 下半场」:所有可验证的任务都会被 AI 解决
OpenAI 核心科学家 Jason Wei 离开时回应「AI 下半场」,提出验证者定律,即训练 AI 解决任务的难易与可验证性成正比,所有可解且易验证的任务将被 AI 解决。文章介绍验证不对称性,举例说明不同任务验证特点,阐述定律成立原因及应用,还提及 AlphaEvolve 是成功典型。最后分享 RL 带来的人生教训,即超越他人要走出自己的路。
[量子位] AI人才流动 OpenAI Meta
Jason Wei也被小扎带走:思维链开创者、o1系列奠基人!这次真挖到OpenAI大动脉了
Jason Wei,思维链提出者、o1系列关键人物,被曝将入职Meta,其Slack账号已停用,o1另一关键人物Hyung Won Chung账号也被停用。Jason Wei本科后曾就职谷歌、OpenAI。小扎能挖到人才,一方面Meta给顶尖AI人才强大支持,另一方面OpenAI内部有问题,如扩张混乱、赛马盛行、代码库质量不一等。
[深思圈] AI检索 ZeroEntropy 技术创新
00后融资420万美金,用数学天才的方法解决AI最头疼的"找错信息"问题
本文介绍ZeroEntropy公司获420万美元种子轮融资。当前AI检索系统有处理否定语义、多步推理、模糊过滤查询的问题。该公司用国际象棋ELO评分训练重排序模型,解决假阴性问题,提升性能。创始人Ghita Houir Alami背景多元。其构建开源评估框架,定位开发者工具,已获市场验证。未来,精确检索需求将增长,该公司有望成AI基础设施提供商。
[KuaFuAI] AI Coding 码上飞 武鑫
在最卷的AI Coding赛道,他押注China First,要做行业的拼多多|对话码上飞创始人武鑫
本文是对码上飞创始人武鑫的访谈。AI Coding赛道竞争激烈,码上飞服务纯小白用户,无需代码输入,直接交付完整产品,这一做法存在争议,但武鑫坚持。他认为AI Coding落地场景在中国四五线城市,更关注产品迭代速度。访谈中还探讨了产品技术问题、与大厂竞争、AI机会等,武鑫判断2027年或出现杀手级应用,推荐《少有人走的路》等三本书。
[K姐研究社] 吴恩达 AI创业 产品构建
吴恩达最新演讲解读:AI时代如何快速构建产品与创业?
K姐解读吴恩达在AI Startup School演讲,聚焦AI时代构建产品与创业。吴恩达指出应用层是最大机会,应找垂直场景具体问题,用AI做赋能工具;还给出处理想法的小贴士。同时提到AI使工程师效率提升,产品管理成瓶颈,建议产品经理学代码或工程师懂产品。此外,分享培养产品直觉的方法,认为AI创业关键是懂人,肯深耕、敢试错就有机会。
[海外独角兽] AlphaEvolve AI 科学发现
AlphaEvolve:陶哲轩背书的知识发现 Agent,AI 正进入自我进化范式
本文介绍了 AlphaEvolve,它由 FunSearch 演化而来,是基于 LLM 进化算法和 evaluator 的通用算法发现与优化平台。它在数学、Google 业务等多领域取得突破,运行机制类似自然进化。其关键组件 evaluator 可筛选方案,未来 LLM 或成 evaluator。目前 AI 进入自我改进范式早期,AlphaEvolve 展示多种改进路径。它重塑科研范式,应用潜力大,但推广面临 evaluator 构建和计算资源要求高的挑战。
[PaperAgent] AI安全 思维链(CoT)监控 联合研究
借助CoT监管AI?OpenAI、谷歌、Anthropic等罕见联合发论文:AI系统安全的新机遇!
OpenAI等机构联合发表论文探讨借助思维链(CoT)监管AI。高级Agentic AI不透明性有潜在风险,而现代“推理模型”训练使其产生可解释窗口。CoT监控在安全研究中实用,能检测模型不当行为、发现早期不一致信号、注意评估缺陷,且已在捕捉奖励黑客等行为中发挥作用。不过,其可行性依赖当前模型训练方式,进一步扩大RL、直接监督CoT等因素或致监控性下降。