
大模型狂飙2025:一篇文理清从模型到智能体的架构演进
文章围绕2025年大模型架构演进展开。2023 - 2025年,AI工程从聊天机器人转向智能体与系统工程时代,驱动力是从对话交互到任务闭环的跨越。现代LLM应用架构分智能、能力、连接、编排四层。智能体是利用大模型决定应用控制流的系统,有自主性,其认知架构有ReAct、规划与执行、反思与自我修正等模式,还出现多智能体协作趋势。能力层中,工具是执行能力,技能是专业知识,技能优先架构更优。连接层的MCP解决集成难题。编排层,LangChain适合简单场景,LangGraph用于复杂场景。未来挑战在于思维转型,包括产品设计、应用研发、算法研究方面,工具生态的成熟将推动AI原生未来的构建。

提示词技巧分享:一劳永逸版!
本文是腾讯云开发者唐彪的提示词技巧分享。先介绍使用Gemini 3.0 Pro等AI模型将简短模糊描述转化为详细英文提示词的方法,包括分析扩充维度和输出格式要求,并给出示例。接着阐述不同应用场景下的处理方式,如文生图、文生视频、文生文、图生文、图生图、图生视频等,还给出各场景示例。最后提到虽当下很多AI有自动补全功能,但建议学习AI分析思考步骤,在其基础上二次编辑优化,真正成为AI创作者,文中脚本可到公众号后台回复‘提示词’获取。

什么是技术架构、数据架构、业务架构、应用架构和代码架构?
文章由鹅厂架构师撰写,介绍多种架构概念。先阐述架构是对系统的描述,目的是控制复杂,还介绍4+1、C4、TOGAF - 4A等架构模型。接着分别说明各类架构:业务架构从业务视角描述系统,制定原则并划分模块;应用架构承接业务和技术,描述应用逻辑结构与交互,有功能和技术架构图;技术架构确定运行组件关系及部署策略,考虑非功能性特征;代码架构强调代码分层;数据架构描述存储数据架构,设计要考虑业务场景。

腾讯AngelSlim重磅升级!面向全模态的大模型压缩算法工具包,推理速度飙升 1.8倍!
近年来,推理阶段成本、时延与稳定性制约大模型规模化应用,投机采样可减少大模型有效前向计算。腾讯混元升级 AngelSlim,围绕 Eagle3 投机采样训练范式构建实现,适用于多模态场景,最高实现 1.9 倍推理加速。AngelSlim 集成压缩算法,支持多模态草稿模型训练,以‘Eagle3 训练即部署’为核心。其核心亮点有覆盖全模态训练、面向部署。组件含数据处理、模型、训练器模块。实践上可快速开始训练,所训模型加速表现佳,代码和模型开源。未来计划在工具化和算法创新方面进一步发展。

鹅厂员工都用AI Coding捅过多少篓子?
文章盘点了鹅厂员工使用AI Coding时的翻车现场及防坑指南。多位鹅厂同事分享经历,如部分模型避重就轻、简化测试用mock数据,导致返工;AI改代码会致编译失败、陷入死循环、绕过关键逻辑等。防坑技巧包括用好模型、手动拆解任务、限制危险操作、多commit备份、提前开发测试用例、明确修改范围、强调关键部件不可改等,助开发者在AI编程时代少走弯路。

中美AI巨头都在描述哪种AGI叙事?
本文梳理2025年人工智能领域技术脉络。技术进步集中在流体推理、长期记忆、空间智能和元学习领域,因Scaling Law遇瓶颈,业界从“做大模型”转向“做聪明模型”。当前瓶颈是模型要“博学、懂思考、能记住”,2025年有新解决方向:推理能力通过Test - Time Compute实现质变;记忆能力因Titans架构和Nested Learning提升;空间智能方面视频生成迈向世界模型。此外,强化学习工程、记忆研究、空间智能各派系、元学习等均有进展,还解决了合成数据、小模型蒸馏、注意力机制等问题。最后畅想2026年研究可能向记忆工程化、架构变革、自进化等方向发展。

谁在沉迷AI算命?
本文探讨AI算命现象。AI与传统算命结合成热门商业化品类,成时代情绪出口。其历史久,海外平台Astrotalk成果斐然,国内“AI人生K线图”销量高,解构传统算命成日常方式。爆火原因是传统算命市场“极度非标”,AI降低成本且处理数据强。但AI有缺陷,缺乏流派体系完整和“复盘 - 修正”能力,在语境感知有盲区,不过它不评判、能保密,也易成人性幽暗面共谋者。AI算命成年轻人情感寄托,因奋斗边际收益降低,人们无力掌控命运时易迷信。

AI发现的25个好故事
这是《AI发现的25个好故事》引言。作者让AI寻找用技术解决真实问题商业案例,带回25个故事。故事揭示真正创新常发生在被认为“无利可图”或“过于琐碎”领域,如废水处理、能源存储等公司修补世界破损循环。还体现技术重构人的尊严和价值,如赋能农村女性、助力医患沟通等。商业模式上多数想成“铺路人”构建新经济底层系统。这些从微小痛点出发的故事提醒改变世界常从小事开始,展现人类智慧、坚韧和善良。

[A's周刊 15] CES从概念走向现实
这是A's周刊15期内容,涵盖科技与设计领域。科技方面,2026年1月6 - 9日美国拉斯维加斯举办的CES 2026消费电子展,英伟达展示机器人训练模拟器,乐高发布智能积木,波士顿动力Atlas机器人量产,LG展示家务机器人。设计领域介绍了美山友以建筑理性做字体设计;伊戈尔·古罗维奇用后现代拼贴叙事形成独特美学;安东·雷波宁在作品中操纵时空逻辑,其工作室也获国际认可。

智效跃迁,架构无界,第三届腾讯云架构师峰会圆满落幕!
2025 年 12 月 27 日,第三届腾讯云架构师峰会在北京举行,主题为“智效跃迁 架构无界”。主论坛上,多位嘉宾指出 AI 带来技术变革,架构师面临能力重塑挑战,并回顾同盟发展成果。熊辉、程伟等嘉宾分享产业分析、企业智能体实践等内容,还进行年度同盟表彰。主题论坛探讨 AI 驱动的技术重构、业务赋能及开发者进化路径,涉及 AI 领导力、架构范式转变等话题,圆桌对话讨论了 AI 技术与商业价值闭环构建。峰会描绘了 AI 浪潮下技术生态全景,强调交流共创的重要性。

SGLang Hierarchical Sparse Attention 技术深度解析
阿里云Tair KVCache团队等推出面向Sparse Attention的分层稀疏化框架。HiCache虽扩展了KVCache容量,但长上下文推理出现计算和容量瓶颈。动态稀疏注意力(DSA)突破计算瓶颈,却使瓶颈转移到HBM容量。分层稀疏化将全量KV Cache存于CPU,GPU仅维护Top - k的LRU Buffer。文章介绍SGLang分层稀疏化框架,包括整体架构、核心机制和实践案例,如DeepSeek DSA集成使单请求显存占用大降,单机吞吐提升。性能评估显示该框架在长序列场景有显著优势,未来还将在算法、性能、架构方面深化。

极速开发出一个高质量 Claude Agent Skills 最佳实践
文章作者分享开发Claude Agent Skills的经验。先介绍Skill,它放在skills文件夹,含SKILL.md等,可在Claude等工具使用,还能借助OpenSkills。对比Skill与MCP,指出二者互补。开发Skill时,建议拉Claude Skills仓库源码,用Qoder和NotebookLM辅助学习,让AI写,明确任务并提供上下文。Claude Skill自身实践包括省着写、控制自由度、合理组织结构、规范命名元数据、迭代开发、处理代码执行及避坑。最后强调模型强大时,应清晰表达想法并提供充足信息让AI完成开发。

Qoder 发布首个自进化的智能体:看 Quest 如何重构了 Quest
本文介绍了 Qoder 发布的首个自进化智能体 Quest。它重构自身长程任务执行逻辑,团队仅需描述需求、审查代码和验证结果,体现自主编程。Token 需产出可交付产物才实现自主编程。其公式为 Agent 效果=模型能力×架构设计,通过上下文管理、工具选择、Agent Loop 优化架构。上下文管理采用 Agentic 方式,让模型自主压缩和动态注入信息;工具选 Bash 为主,简洁稳定;Agent Loop 遵循 Spec>Coding>Verify 流程。还能对抗模型“退缩”,自动适配复杂度,为未来模型设计,不暴露文件编辑过程。Quest 有自进化能力,团队用其构建自身,正在探索自主编程的未来。

论文秀Live#30 |CGO & MICRO:全同态加密推理的双线加速革命
伴随AI与隐私保护发展,全同态加密(FHE)推理性能瓶颈待突破。本期论文秀Live聚焦CGO和MICRO会议,分享蚂蚁技术研究院两项工作。论文一“HAWK”提出定字长密钥分解切换方法,适配定字长硬件架构,降低计算复杂度和存储开销,还提出优化策略和舍入计算方法,构建硬件适配架构。论文二“FHEFusion”提出针对CKKS方案的编译器框架,通过新中间表示实现算子融合,降低乘法深度。HAWK将算法优势转化为硬件性能,FHEFusion加速DNN推理。论文作者将分享设计思路与验证过程,直播于2026年1月15日18:00 - 20:00在多平台同步进行。

隐语嘉年华|可信互联,价值共生,探寻数据安全流动的可靠路径
2026年1月10日,第三届隐语开源社区嘉年华在上海举行,主题为‘技术互通,数联未来’。会上,上海市数据局领导肯定隐语社区成果,强调数据流通‘互联互通’重要性。蚂蚁集团韦韬提出数据可信流通破局路径。中国信通院王亦澎、中国银联周雍恺等展示数据互联互通实践。中国电子数据产业集团、亚信科技进行技术融合实践。蚂蚁密算王磊发布SecretFlow 2.0架构,中国电子孙自立发布OpenDataWare。京东等企业分享应用场景实践,活动还表彰社区贡献者。历经三年,隐语社区已成长为全栈技术开源生态。

@个人AI开发者 ,支付宝可以帮你赚钱了
文章指出过去一年虽有众多惊艳AI应用诞生,但个人开发者常卡在产品变现环节。支付是商业闭环重要能力,AI智能体带来新集成方式,个人开发者面临平台不支持收款、用户订阅无入口等问题。为此,支付宝AI生态推出「智易收」与「AI订阅付费」双产品,构建合规收款与订阅体系。同时邀请开发者加入「智星计划」,分享体验还有机会获周边。未来,支付宝会用20年支付沉淀持续优化AI场景支付服务,探索研发原生支付方案。

探索数据隐私计算“圣杯”,2025年蚂蚁同态加密顶会论文数占业界三分之一
AI时代数据安全重要性凸显,数据隐私保护技术突破进入加速阶段。同态加密被誉为数据隐私计算的“圣杯”,能在不解密情况下对加密数据计算,保证结果一致,是密态计算方案重要基石。2025年,蚂蚁技术研究院计算系统实验室发表6篇同态加密顶会论文,占同期相关顶会论文总数超三分之一。蚂蚁从2016年开始探索隐私计算技术,2022年成立计算系统实验室,建立全栈式研究体系,其同态加密加速方案性能相较测试基准提升超3000倍。未来蚂蚁将持续投入同态加密技术研究,探索其规模化部署和产业落地路径。

OceanBase 再登顶刊!
近日,成都信息工程大学与 OceanBase 研发团队合作的《CMA+DB: How to Automatically Tune Database Parameters through Collaborative Multi-Agents》被《IEEE Transactions on Knowledge and Data Engineering》录用。该研究聚焦复杂工作负载下数据库参数自动调优问题,提出 CMA+DB 多智能体协作框架,采用‘分类协作、分层训练’理念,构建三级递进式训练机制,整合三个子模型。在 PostgreSQL 数据库不同工作负载验证,该框架在调优效率、性能提升和泛化能力上表现突出。未来将优化框架结构、适配更多 DBMS 以广泛应用。

Dragonfly 正式晋级 CNCF 毕业项目
2026年1月16日,CNCF宣布Dragonfly正式成为毕业项目。它是开源镜像和文件分发系统,由阿里2017年开源,2018年入CNCF沙盒,2020年进入孵化阶段。其提供高效数据分发加速能力,基于P2P技术,运行在Kubernetes上。在生产环境每天支持千万级容器启动,节省回源带宽、缩短启动时间,还推动AI模型权重分发。自加入CNCF,代码贡献增超3000%,社区贡献者超130家公司。未来将基于RDMA加速、优化镜像布局等。项目毕业获多方认可,维护者、TOC成员、用户均表达积极看法。

活动资讯|支付宝「碰一下」场景创新大赛回顾
本文是支付宝「碰一下」场景创新大赛回顾。「碰一下」基于NFC技术,可用于支付和多场景服务,截至2025年4月覆盖400城、超1亿用户。9月23日赛事在国美良渚校区启动,多高校参与。一等奖“碰见现场NFC×live”打造演出全链路沉浸体验;二等奖如“支 | 碰一下 × 心意碰”等带来新社交互动、智能睡眠等创意方案;三等奖作品涵盖音乐节票务、校园生活、公共出行等多领域。大赛由支付宝碰一下等主办,多院校合作。

设计不止于界面-AI引领的“Design to Code”时代
文章介绍了AI引领的“Design to Code”(D2C)时代。传统设计环节中,设计师与研发存在理解偏差,AI涌现后虽尝试用AI_Code还原设计稿,但存在问题。通过摸索得出D2C解法,借助AI - IDE和设计工具,打通设计与研发数据,实现设计稿转前端代码。文中展示了PC端和移动端两个案例,体现D2C可提升项目整体效率。D2C促使设计师提升工程化思维,还阐述了其核心方法和实现路径,包括针对有组件和无组件的不同步骤。最后指出D2C是团队角色和流程升级,设计师将跨越传统边界,AI放大其思考维度,推动设计生态发展。

开始了,京东要用 AI 重做一遍电商
文章围绕京东新上线的「京东AI购」APP展开。它设计区别于传统京东APP,做了明显减法。搜索商品时,能结合小红书热点与京东商品池,匹配精准。商品展示分级结构化,支持AI对比。有“每日一惠”筛选折扣。还覆盖机酒饭等场景,能按需求推荐并给出选择建议。推出AI试衣功能,集成度高。其重构购物逻辑,将脏活累活放后台,体现京东AI底层能力。不过这种极简形态虽降低认知负担,但也可能减少“逛”的乐趣,是否成未来电商主流尚不确定。

迈向电商大模型时代,从虚拟试穿到电商AIGC
本文围绕迈向电商大模型时代,从虚拟试穿到电商AIGC展开。先解析虚拟试穿定义、分类,其核心价值源于行业、消费者和商家需求,但面临用户三层进阶需求的难点。接着回顾技术发展历程,介绍京东四代技术迭代及核心观点。京东虚拟试穿产品处小流量测试,沉淀降低门槛等经验,探索万物成套等方向。还阐述京东电商AIGC能力矩阵,含商品抠图等八大板块及实践案例,新版京点点平台有四大特点。最后展望电商AIGC,指出技术统一、交互选择及个性化体验等趋势。

Kafka、RocketMQ、JMQ 存储架构深度对比
文章聚焦Kafka、RocketMQ、JMQ三款主流消息队列,从存储架构多维度深度对比。Kafka以“主题 - 分区”为核心,数据按日志流追加,用分段日志文件,依赖PageCache、顺序I/O和mmap,顺序写磁盘、索引轻、副本同步优。RocketMQ采用“CommitLog + ConsumeQueue + IndexFile”三层结构,分离数据存储与索引查询,读写分离、支持事务和不同刷盘策略。JMQ参考前两者优点改进,以PartitionGroup为基本单元,读写有自身优势。在不同场景下,三者性能有差异,JMQ适合对同步写入和副本异步吞吐要求高的场景,Kafka适用于复杂分区高并发同步写入场景。

一键收藏!中选六大顶会 京东零售年度 AI 论文精选合集(内含福利)
Tech Insight栏目解读京东零售技术论文成果。今年近50篇论文被国际顶级学术会议收录,从中精选15篇制成合集。论文覆盖多个关键方向,如TANDEM优化LLM训练数据混合比例;LoRA改进调参初始化方案;Uni - Layout解决布局生成评估问题;SSUF统一电商查询分类任务;FDD提升模型蒸馏效果;基于图同构网络的群体建模解决点击率预估冷启动问题;ADORE提升电商相关性;MoBGM生成广告竞价词;COT解决CTR预测特征问题;HBM建模用户长期行为;京东零售广告创意相关研究优化图片生成;GRAM提升电商检索效率;UECF实现粗排无偏CTR估计;AutoPP自动化商品海报生成优化;HBLR提升语言模型推理能力。

AI产品全是蓝紫色,谁定的规矩?
文章指出打开AI应用常被蓝紫色“包围”,这背后有心理学逻辑和行业巧思。从色彩设计心理学看,蓝色带来靠谱感,紫色补上创新感,二者结合让AI既专业又有新意,如钉钉的设计。从行业角度,早年科技圈多为蓝色,AI产品用蓝紫色可避免同质化,还自带视觉吸引力。此外,蓝紫色在屏幕显示效果友好,视觉效果突出,适配各种场景。不过,也有部分AI产品不用蓝紫色,如ChatGPT用绿色。但对多数AI产品而言,蓝紫色仍是最稳妥选择。

a16z 预测 2026 年 AI 三大变局
a16z crypto在X上发表对2026年AI三大变局的预测。一是利用AI进行更实质性研究任务,当下AI已广泛用于研究领域,今年或赋能“博学家式”研究风格,需新型AI工作流,加密技术可解决模型互操作性等问题;二是从“了解你的客户”转向“了解你的智能体”,智能体经济瓶颈转向身份,需建立“了解你的智能体(KYA)”机制;三是要解决开放网络上的“隐形税”问题,AI智能体兴起破坏开放网络经济基础,网络需从静态许可转向基于使用的实时补偿。
Claude 发布 Cowork:AI 不再只是助手,而是你的工作搭档
2026年1月15日,Claude正式发布面向日常工作的AI协作功能Cowork,将AI拓展为工作搭档。它源于Claude Code使用反馈,从编程拓展到多场景。其核心能力是参与本地工作环境,可读取、编辑文件等,以完整流程完成任务。工作时用户设定目标,Claude自主拆解执行。它支持与连接器和浏览器协作,覆盖全流程。权限上显式授权,执行操作会确认。目前处于研究预览阶段,后续将优化体验、引入跨设备同步、推Windows版本。

支配树算法原理及鸿蒙工具实践
本文介绍支配树算法在鸿蒙系统ArkTS内存分析工具中的应用。为解决淘宝App鸿蒙版内存溢出问题,构建了客户端采集、服务端分析的工具链。文中对比了朴素、Lengauer - Tarjan和迭代三种支配树构建算法,选用优化迭代算法,因其实现简单、易验证,适合循环引用多的内存图。还介绍了Lengauer - Tarjan算法原理,如半支配节点和直接支配节点计算;阐述迭代算法原理及在JS内存镜像分析的应用,包括构建边索引、前驱节点等,最后说明了构建支配树、计算retainSize及聚合计算的方法。

AI 无障碍 CR 与自动适配实践:从问题洞察到效果验证
本文介绍基于AI的无障碍自动适配方案,可“写代码即修无障碍”。先分析历史问题,焦点管理类占比55.1%,文本描述类占30.8%,前6类问题占86%,根因是开发意识、测试验证、工程支撑和组件复杂度问题。建立修复知识库,前期AI实验定位问题准确率高。方案围绕AI评审、智能修复和模板适配,贯穿前端开发全流程。自测和生产环境优良率超95%,开发者反馈良好。未来将扩展到Native和D2C场景,降低开发适配成本。

火山引擎日志服务-AI时代的数据存储分析底座
文章围绕火山引擎日志服务(TLS)展开,它是泛文本数据一站式存储分析平台。AI浪潮下,传统可观测体系面临观测与评测链路割裂、多模态数据观测缺失、数据安全与合规风险等挑战。火山引擎提供一体化方案,TLS是核心基石,承担统一数据入口、数据回流枢纽和安全合规保障角色。它支持多模态数据处理,打通观测、评测、精调流程,保障数据安全,还能分析强化学习轨迹。未来,TLS将深化内置向量索引、推出多模态观测方案、探索智能化分析等能力。

观测成本如何优化?APMPlus 尾采样技术的降本增效实践
文章围绕观测成本优化,介绍 APMPlus 尾采样技术实践。在微服务中,分布式链路追踪需采集数据计算 R.E.D 指标,但全量采集成本高,头采样有指标失真等问题。尾采样‘先收集,后决策’,APMPlus 中 O11yAgent 负责数据采集处理,通过一致性哈希路由聚合同一 Trace 的 Span。采用多级与组合采样策略,还实施决策前置等优化措施。同时实现决策过程监控,性能压测显示开销可控、策略效率高、高负载稳定。尾采样有适用边界,可与头采样结合,该技术是可观测性体系重要发展方向。

KDD 2026 | 小红书内容审核:Hi-Guard 让内容治理“知其然,更知其所以然”
内容安全是平台治理生命线,传统审核模型有处理复杂语义和规则对齐困难等问题。小红书内容理解团队提出层级式治理框架Hi - Guard,其核心是将审核决策转化为‘基于规则对齐的层级推理任务’。通过层级化提示实现规则逻辑对齐,采用层级分类体系提升分类准确率,用软边界奖励强化学习优化模型。实验表明Hi - Guard在泛化与准确上有双重提升,还具备可解释性,避免传统模型弊端。未来将探索‘指令化审核大模型’推动内容治理智能化、透明化。

2025 TOP 10文章推荐|得物技术
2025 年圆满收官,得物技术公布该年公众号最热门 10 篇技术文章。其中涉及 AI 工具应用,如 Cursor 在前端需求开发、相关规则优化;大模型开发,像给 Javaer 的开发指南;数据库技术,包括 MySQL 单表数据量、RAG 分块策略、向量数据库落地、Elasticsearch 索引规划;还涵盖 Java SPI 机制、算法项目管理、业务参数配置中心架构,展示了得物在技术各领域的实践与探索。

双栈一致、业务驱动,揭秘快手KwaiDesign企业级UI组件库背后的技术实践
为应对多业务线体验碎片化、双技术栈难以复用等问题,快手构建企业级UI组件库KwaiDesign。文章介绍其背景,包括体验碎片化、研发效率瓶颈、维护成本高。KwaiDesign有四大差异化能力,如双栈一致性引擎等。建设遵循四步法,即构建统一架构、实现开发者体验一致、提供存量业务迁移方案、打造主题定制与质量保障体系。目前已实现技术栈融合、协作流程优化、研发效率提升,未来将扩展场景、深化工具、增强组件功能,支撑业务创新。

好家伙,Claude Code 竟然写了这么多 Bug!
作者在开发 InterviewGuide 项目中体验 Claude Code 等 AI 编程工具,复盘 4 个典型 Bug。一是 @Transactional 自调用致事务增强失效,因事务 AOP 代理被绕过,解决办法是将方法拆到另一个 Bean 上;二是 AI 响应解析空指针,因 LLM 输出随机,解析代码简单,需两层防护;三是删除实体后异步任务报错,因用户删实体但任务还在跑,要在任务处理前做生命周期校验;四是 Redis Stream 消息无限堆积,因未用 XDEL 或 MAXLEN,发送消息时添加 MAXLEN 可修复。AI 编程降低编写门槛,但提高审计门槛,需穿透式 Review。

Android 应用黑暗模式实现详解
文章围绕 Android 应用黑暗模式实现展开。Android 29 起引入系统级支持,有 DayNight 和 Force Dark 机制,低版本适配效益低。DayNight 模式通过主题继承、模式控制、资源配置实现,支持应用与系统联动及独立控制,资源管理清晰,但适配成本高;Force Dark 机制通过系统算法自动转换,适配成本低,但有视觉偏差,不支持独立控制;双机制结合利用 Force Dark 快速适配,用 -night 资源优化效果。最后从多维度对比三种方案,指出不同场景的适用方案,适配需综合考量。

还记得图表可视化的 MCP 吗?Skill 版本来了!
文章介绍了图表可视化 MCP 的 Skill 版本。2025 年 10 月 Anthropic 发布 Claude Skills 功能,此前还有 MCP 协议规范,两者均为该公司推出,MCP 靠外挂程序增强 AI 能力,Skills 则相信模型自主能力并用文档复用。AntV 曾发布 MCP Server Chart,现把可视化图表生成能力封装成 Skills 开放。实现过程包括使用 Code Buddy,按三步完成:提供 25 个工具描述文档放 references 目录,将出图服务写成 Python 程序放 scripts 目录,用 AI 生成 SKILL.md 文件。使用时在支持技能的 AI IDE 导入并启用,可自动选图生成。实践发现 AI Coding 提效明显,Skills 用 Markdown 编排工作流,更像自然语言工作流且便于沉淀。

叙事驱动体验:双11淘金仔IP体验升级
本文讲述双11淘金仔IP体验升级设计。初入大促设计的作者,首要挑战是在复杂规则中找回玩法“好玩”感。在双11节点,让淘金仔IP从基础设定整体升级。一是将省钱心智融入武学设定,打造IP叙事,用功夫概念降成本,创造有梗设定增强传播力;二是借IP叙事串联交互节点,参考剧本节奏转译用户行为,升级各环节体验;三是探索界面外设计途径,在端外小红书分发内容,线下推出公仔盲盒、设计视频分镜。通过叙事驱动,将营销逻辑转化为用户成长旅程,让设计有温度。

微信小游戏秀肌肉:DAU已破亿,超300款游戏季度流水超千万
2026 年 1 月 15 日,2026 微信公开课 PRO 小游戏专场在广州举行,公布了微信小游戏最新生态数据。开发者生态方面,累计开发者超 40 万,2025 年新开发者 5000+,80%为 30 人以下小团队,重视长运营的团队增多。2025 年 70 款小游戏 DAU 达百万,超 300 款单季度流水超千万。用户触达方面,2025 年小游戏整体 DAU 超 1 亿、MAU 达 5 亿,各类用户活跃度、黏性和付费意愿加深。PC 小游戏连续两年大幅增长。2026 年重度、休闲类游戏都有增长机会,团队还宣布了新商业政策,在 IAP 和 IAA 方面给予激励。

实时生成开放世界:新AI模型贴脸开大,游戏研发慌不慌?
文章围绕新AI模型PixVerse R1展开,它是全球首个实时生成世界模型,由爱诗科技研发。用户设定世界观后,它能自行发展画面和故事,还可接受指令改变内容,与以往视频AI不同,是新型媒体形式。在游戏领域,它能改变传统游戏研发和发行环节工作流,助力世界观预研、开发新玩法与组织活动,为玩家提供可交互宣发素材。在品类定位上,会影响互动影视、跑团等玩法游戏,还可能开发新小游戏类型。虽然该模型处于早期,存在逻辑问题和算力限制,但AI能拓宽游戏品类边界,先把握机会者有望在竞争占先。

滴滴与智谱达成战略合作,将共同探索出行Agent场景落地
2026年1月12日,滴滴与智谱宣布达成战略合作,将围绕通用人工智能(AGI)关键技术及其在出行领域的智能体应用开展前瞻性协同探索。滴滴近年加大在大模型与智能体方向技术投入,推进了AI出行助手等智能体创新应用。智谱在大模型架构等方面积累深厚。双方将共同推进Agent场景落地和人才培养,深化出行场景意图对齐与推理能力建设,推动Agent在更复杂业务场景验证与落地。滴滴相关负责人期待双方发挥优势,推动通用人工智能在更广阔真实场景应用与发展。

百度地图驶入“两轮新蓝海”,以导航为引擎定义智能出行未来
随着城市出行结构演变,两轮车成短途通勤重要方式。百度地图成两轮车智能化变革推手,2025年与雅迪等品牌深度合作,构建全域两轮导航生态。其推出‘两轮车导航’引擎,有专属路线规划、动态续航管理和全场景交互融合等核心突破。针对不同品牌提供差异化融合方案,与雅迪、九号、五羊本田等合作呈多样化。凭借这些合作,百度地图在两轮垂直领域确立领导地位,形成生态覆盖力、数据与体验壁垒、产业影响力。其深入渗透还为未来城市慢行交通等领域奠定基础,未来或与车企探索更多创新。

大规模 UI 自动化从“排队地狱”到高效、稳定、可治理的架构演进
本文复盘团队基于Jenkins+Kubernetes的大规模UI自动化体系架构演进。起初,因环境依赖重等问题,UI自动化测试成CI/CD流水线瓶颈,存在体量失控、反馈延迟、资源雪崩挑战。团队从架构并行化等四维度重构,包括任务分片与泳道隔离重构调度逻辑,引入GPU、Pod温池化等优化基础设施,通过并发节流解决Yarn安装慢问题,关闭hostNetwork解决浏览器崩溃。最终将核心业务回归执行时间稳定在20分钟内。未来还需应对用例规模治理、容器化技术债务、AI赋能探索等挑战。

性能突破:星图平台架构优化
文章围绕货拉拉星图平台架构优化展开,先介绍星图平台是“接口管家”,具配置化等能力,以应对业务需求。架构设计遵循模块化、轻量化、可扩展原则,但早期开发面临工程腐化、性能与稳定性压力等问题。通过应用指标分析发现CPU、内存、接口响应等性能问题。为此采取自动注册插件、数据存储解耦、数据压缩、缓存优化、多线程调优、代码优化、网络IO优化、数据序列化优化、JVM微调等措施。经优化,平台性能显著提升,如进线优先级接口RT下降98%,服务机器数减少60+%,目前已稳定运行两年,系统稳定性达99.99%,成功接入超100个业务方服务。

透过图谱:解码软件工程3.0核心密码
文章介绍软件工程3.0时代相关情况。2023年朱少民提出其核心理念,2025年《软件工程3.0》出版阐述理念。同年11月“中国AI + 研发进化图谱”发布,从多维度呈现演进脉络。《软件工程3.0》梳理演进历程,剖析核心特征,提供关键能力构建策略与案例。其核心密码包括人机协同,提升开发各环节效率;建设知识图谱,提供信息支持;以“AI+ATDD”驱动SDLC,加速研发智能化;上下文工程,提高AI实用性与决策准确性。此外,还推出《软件工程3.0》图谱签章版,融合理论与图谱,赠进化图谱长图,扉页有作者签名,兼具实用与收藏价值。

从京东AI上线、千问App接入阿里生态,预示AI应用将全面大爆发
2026年AI技术尤其是大模型应用飞速发展,重塑各行业商业生态。电商领域,京东发布“京东AI” app,重新定义购物体验;千问App接入阿里生态,月活破亿,提供一站式AI购物服务。多个行业探索AI大模型应用,如“Ai好记”用大模型实现知识管理新体验,教育、物流、电力、制造业、自动驾驶等领域也有广泛应用。AI应用形成网络效应,巨头纷纷接入大模型技术。未来,AI将迈向更广泛应用场景,但企业需考虑伦理和隐私问题。

从组件到 OS 的跃迁,MemOS 深度拆解【上】:构建企业级 Agent 的高性能记忆底座
本文是MemOS深度拆解上篇,介绍理念、架构等。理念上,它要将记忆变为系统资源,适应企业需求。架构含MemOS层、MemCube和基础设施。MemOS层是中枢,有MemReader和MemScheduler;MemCube是容器。核心抽象MemCube统一管理记忆。记忆有明文、激活、参数三种形态,可互相转化。实战中,MemOS采用Cloud和开源框架结合模式。Cloud服务省事,适合快速验证;开源自托管适合内网;Python SDK适合单体应用。文中用MemOS Cloud举例,展示了接入配置、添加检索对话、异步处理、记忆过滤、多模态记忆、知识库融合、工具记忆等能力。

死了么?还没!听我们说说Eigent产品背后的故事
本文讲述了Eigent产品背后的故事。团队先发布多智能体协作框架CAMEL,后探索让智能体操控真实操作系统的CRAB项目。2024年推进产品开发,因基础设施不成熟和团队资源有限暂停。之后推进三条基础设施研究线,因OWL爆火重启产品开发。2025年7月Eigent上线,发布后有一定用户量,但因定位和稳定性问题进入沉寂期,后聚焦B端和开发者。团队通过构建基准测试打磨产品,获Google关注,还与多家公司合作,兼容多个主流模型,近期推特帖子爆火,Eigent登顶GitHub trending。

视频播放弱网提示实现
业务群常反馈视频播放卡顿,经排查是弱网导致,为提升用户体验、减少客诉,需在弱网时展示提示。使用的 chimee 播放器无自动展示 loading 功能,可编写自定义插件。方案一是用 NetworkInformation,通过监听 onchange 事件在网络变差时提示,优点是浏览器原生支持、实现简单,缺点是网络状态变化非实时、有兼容性问题、不同设备有差异。方案二是监听 Video 元素的 waiting 和 canplay 事件。还介绍了检测网络速度的方法及代码,可通过 setInterval 轮询展示。最后可通过 Chrome 开发者工具模拟弱网,成功实现视频弱网提示。

Tailwind 因为 AI 的裁员“闹剧”结束,而 AI 对开源项目的影响才刚刚开始
文章围绕Tailwind因AI引发的裁员风波展开。AI公司大量使用Tailwind,其class写法适合AI生成代码,但这切断了Tailwind原本的赚钱路径,导致官网流量和收入下降,出现“越火越穷”情况。Tailwind靠开源增值产品盈利,与Bun命运不同,Bun是强战略资产,Tailwind是可替代的开发者体验层。此次Tailwind发声后获赞助,暂时解决生存问题,但赞助无法解决开源项目商业模式窘境。AI切断流量对开发者和开源项目影响才刚开始,项目影响力和盈利取决于在AI链路中的角色。

Google DeepMind :RAG 已死,无限上下文是伪命题?RLM 如何用“代码思维”终结 AI 的记忆焦虑
不久前DeepMind发布论文介绍RLM(递归语言模型),它赋予模型像程序员操作数据的能力,把长文本视为“数据库”,通过编写代码递归检索、切片和读取所需部分。目前各大模型厂商增大上下文窗口,但实际超过一定长度后性能下降,RAG是主流补丁方案,不过易丢失全局上下文。RLM与RAG不同,它是“操作对象”,能像人类阅读一样靠“逻辑导航”调取细节,实现“完美记忆”。实验数据显示,RLM在多项任务上准确率远超RAG。其无需专门训练,有零样本策略涌现能力,能处理超模型窗口两个数量级的输入。RLM虽在“长+密”任务上优势明显,但也存在一些限制,如跨模型提示词问题、依赖代码能力等,需更强工程和针对性训练才能成稳定产品。

升不升 Swift 6.2.2?看完再决定
前不久 Swift 6.2.2 发布,虽为小版本更新但有改动值得关注。安装方面,可用 Swiftly 命令安装,也可去 Swift.org 下载安装包。此次更新改动有三:给 Observation 框架加线程致命错误处理器,解决 @Observable 多线程访问偶发崩溃;Windows 调试时 python.dll 不在搜索路径会明确报错;SPM 有两个小修复。对于升级,若项目运行正常可不升,若遇到 @Observable 崩溃、SPM 报错或在 Windows 开发可考虑升级,升级操作简单。小版本主要修 bug,未遇问题不用急升。

等了 3 年,Siri 终于要变聪明了,但靠的是 Google
文章称等了3年,Siri将借助Google Gemini变聪明。苹果官宣经评估,认为Google技术为其基础模型提供强大基础,将彻底重做Siri底层,上半年或推出“苹果壳 + Google芯”的Siri。新版Siri有懂上下文、屏幕感知、深层应用控制三个核心能力,随iOS 26.4发布,大概率3、4月推出,国内时间未知。Gemini还将支持未来一系列Apple Intelligence功能,可能使Google市值超苹果。对开发者而言,未来可能开放API。作者认为苹果此次选择虽打脸,但务实,二者合作或打造杀手级智能助手。

AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒
OpenBMB开源社区等联合研发的AgentCPM - Explore智能体模型,仅4B参数便在深度探索类任务上取得出色成果,有望让大模型长程任务处理能力部署于端侧。其亮点包括打破参数壁垒、长程深度探索、全流程开源。该模型在主流评测基准上参数效能比高,能力密度、边界和智能行为表现突出。此外还开源全流程代码,通过三大基建支持复现训练和自定义扩展。同时指出提升小模型智能体性能的三大挑战及应对方法,最后诚邀各方共建下一代端侧智能体生态。

AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒
OpenBMB开源社区联合多机构研发的AgentCPM - Explore智能体模型,仅4B参数却在深度探索类任务表现出色,有望部署于端侧。其亮点有打破参数壁垒、长程深度探索、全流程开源。该模型在主流评测基准展现高参数效能比,越级超越部分大模型,解决GAIA多数题目,有类人思考逻辑。开源的三大基建支持复现和扩展。还探索出提升小模型性能的方法,如模型融合、信号去噪、信息精炼,最后诚邀各方共建端侧智能体生态。

刚刚,Cursor又分享了数百Agent并发协作的最佳实践
Cursor分享数百Agent并发协作最佳实践,先指出单个Agent处理复杂项目效率低,并行协调难。最初尝试让所有agent平等通过共享文件协同,用锁机制防冲突,但失败。后用乐观并发控制,仍有问题。接着将角色拆分为规划者和执行者,解决协同问题。通过构建浏览器、迁移代码、改进产品等实验测试,效果超预期。运行中发现模型选择重要,应针对角色选模型;改进多靠‘减法’;合适结构化程度在两端之间;提示词设计也很关键。当前系统虽可用但未达最优,不过对扩展自主编码能力持乐观态度。

Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
本文介绍清华等团队研究成果。在过去十年,AI 渗透进各自然科学领域,但其对科学整体的影响被长期忽略。研究团队推出 OmniScientist 系统,通过分析4100 余万篇科研论文,揭示了 AI 融入科研后的复杂图景。对个人而言,采用 AI 的研究者论文发表量、引用量增加,职业发展提速;但对学术界,AI 驱动的研究使集体关注的科学主体空间收缩,知识范围收缩,后续科学互动模式改变。研究指出,AI 会使科研资源向易取得进展的领域聚集,削弱对原创性问题的探索,呼吁构建更平衡的 AI 赋能科学愿景。

神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网
2026年1月16日,中国团队Deep Principle领衔全球24所高校机构发布《Evaluating LLMs in Scientific Discovery》论文,推出LLM for Science首套评测体系SDE。同一时间,OpenAI也发布相关论文指出现有评测标准在AI for Science领域失灵。研究发现主流大语言模型在SDE评测中表现不佳,存在多步推理等短板,模型规模提升效益递减。论文通讯作者段辰儒等95后创立的“深度原理Deep Principle”获多家机构投资,与知名企业合作,在顶级期刊发表成果。该团队前期积累成为SDE前身,此次研究推动LLMs向科学发现迈进,也表明目前LLM发展路径无法攻克科学发现,需新评测体系与训练路径。

TRAE IDE 10 大热门 MCP Server 推荐
文章介绍了TRAE IDE中10个热门MCP Server。MCP协议允许大型语言模型访问工具,TRAE IDE支持三种传输类型。10个MCP Server各有特点和用途,如Context7可进行文档检索与上下文注入,Puppeteer能实现浏览器自动化等。文章详细阐述了每个Server的核心功能、使用场景和可用工具,还说明了添加MCP Server的方法,可从TRAE IDE内置的MCP市场添加,按步骤操作并填入配置信息即可。

用户实践|用 TRAE 开发 XMind-MCP 的心路历程
本文作者张博思分享用 TRAE 开发 XMind - MCP 工具的心路历程。因 AI 生成的 XMind 文件无法打开,作者决定开发能让 AI 操作 XMind 文件的工具。选择 MCP 格式是因其可复用、使用灵活,且是让 AI 接入外部能力的主流方式。开发中技术选型从 Node 转向 Python,攻克核心时给 AI 提供“范本”解决问题。封装 MCP 先尝试服务器方案失败,后选 PyPI 平台。确定安装和连接方式时遇到波折,换用 Kimi K2 模型解决。实战迭代中解决文件保存路径和 AI 调用问题。最后介绍工具使用步骤和支持的功能,项目已开源。

https://addyosmani.com/blog/next-two-years/
本文发布于 2026 年 1 月 5 日,聚焦软件工程领域在 2026 年面临的关键变革,以 “AI 编码崛起 + 行业效率导向” 为核心背景,通过五大关键问题及对应两种相反场景展开分析,并为不同角色(初级开发者、高级开发者、准开发者等)提供应对策略,最终强调 “变化是唯一常量”,持续学习与聚焦人类独特能力是核心应对方向。
Astro is joining Cloudflare
文章宣布Astro网络框架创建公司加入Cloudflare。Astro用于构建快速、内容驱动网站,受众多开发者和公司青睐。加入后,Astro将保持开源,Cloudflare承诺支持其长期发展及开源贡献。Astro成功关键在于专注五大设计原则和岛屿架构。同时,Astro 6首个公开测试版已发布,带来基于Vite的新开发服务器,实时内容集也稳定可用,还有更多新特性。Cloudflare期待与Astro团队继续打造内容驱动网站的最佳框架。

ESLint's 2025 year in review
本文是 ESLint 2025 年度回顾。这一年,ESLint 扩展支持 CSS 和 HTML,实现多线程 linting,迈向 v10.0.0。使用量显著增长,周下载量从 4200 多万增至 7000 多万。集成 AI,支持新特性,性能和工作流提升。财务上,收入 20 多万美元,支出 26 万多美元,净亏损减少。还向依赖项目捐款 1.65 万美元。展望 2026 年,待 v10.0.0 稳定后,将完成核心重写、扩展语言插件、优化性能、实现跨文件 linting。

How to write good frontend tests: 37 tips and tricks
本文围绕编写高质量前端测试给出37条实用技巧。测试应清晰明确,避免测试实现细节和第三方代码,使用合适查询函数。优先修复不稳定测试,兼顾正常与异常流程,不过度使用快照。测试文件需结构良好、命名规范且运行快速,避免基于类名查询和断言、测试状态管理内部等。还提到使用固定装置和辅助函数,设置渲染辅助函数,保证测试代码质量。此外,要解释预期值,避免无用测试、测试泄漏、硬编码签名哈希和条件语句,添加注释,关注可访问性测试,正确使用匹配器和模拟方法等。

Stack Space Exhaustion Is Not Specified Behavior
文章指出 Node.js/V8 尝试从堆栈空间耗尽中恢复,使用 async_hooks 时的一个 bug 会破坏此尝试,使 Node.js 直接退出,导致应用易受拒绝服务攻击。React、Next.js 和 APM 工具因使用 AsyncLocalStorage 受影响。该 bug 是因 async_hooks 回调与用户代码在同一调用栈,栈溢出时被 TryCatchScope::kFatal 捕获。修复方案是检测栈溢出错误并重新抛给用户代码。文章建议用户升级到 2026 年 1 月 13 日发布的补丁版本,开发者应注意栈溢出行为未被 ECMAScript 规范定义,要对输入进行清理或限制递归深度。

The Missing Link for Web Components
文章介绍了Custom Elements Manifest可解决Web Components项目工具连接问题。作者在组件库开发中发现代码重复、易不同步等问题。以Lit项目为例展示搭建步骤:先创建新项目和按钮组件;再用Custom Elements Analyzer生成JSON文件;利用其生成Storybook文件,简化配置;借助Web Components Language Server获编辑器智能提示;启用MCP server让GitHub Copilot了解组件;还能用Web Component Linter检查代码。最后提出未来可利用其生成测试和Figma连接文件。

Web Almanac
Web Almanac是HTTP Archive的年度网络状态报告,致力于结合HTTP Archive的原始统计数据和网络社区专业知识。2025版涵盖15章,涉及页面内容、用户体验、发布和分发等方面。其中特色章节‘第三方’显示,前10大第三方域名多为谷歌,90%的页面至少有一个第三方,页面第三方域名中位数为16个,18%的网站使用TCF Standard。该报告由70位志愿者参与规划、研究、写作和制作。其数据来源为HTTP Archive数据集,测试了1620万个网站,处理244TB数据,以2025年7月数据集为指标基础。

从 "对话" 迈向 "行动": 利用 FunctionGemma 打造下一代端侧智能体
文章介绍了 Google 推出的 FunctionGemma 模型。2025 年 Gemma 模型系列成果显著,下载量增长且展现开放模型潜力。开发者对 Gemma 3 270M 有原生函数调用需求,为此推出 FunctionGemma,它是优化版,能将自然语言转成 API 操作。其特点包括执行对话合一、可定制、适用于边缘计算、有广泛生态支持。在特定情境下是优选,如应用有明确 API 接口等。用户可通过 Google AI Edge Gallery 应用体验,还说明了体验和使用该模型的方式,如下载、学习、探索、构建和部署等。

Transformers v5 中的分词系统:更简洁、更清晰、更模块化
文章介绍了Transformers v5中分词系统的改进。先解释分词是将文本转为token ID的过程,有多阶段流程,主流算法有BPE、Unigram等。transformers库封装tokenizers引擎,弥补其不足。其分词器有清晰类结构,AutoTokenizer可自动选合适类。v5重要更新是分词器架构与训练词表分离,解决了v4中结构与词表绑定、代码重复等问题。现在每个模型一个文件,默认用Rust后端,结构可见,支持从零训练,让库更模块化、透明。

社区供稿丨AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒
OpenBMB开源社区联合多机构研发的AgentCPM - Explore智能体模型开源。该模型仅4B参数,在深度探索类任务表现出色,可部署于端侧。其亮点有:打破参数壁垒,是首个具备8个长难智能体任务处理能力的4B端侧模型;长程深度探索,可超100轮稳定交互;全流程开源,开源了配套工具。它在主流评测基准有极致参数效能比,能力边界宽、行为智能。还开源全流程代码,有三大基建支持复现和扩展。同时,针对小模型性能挑战提出‘模型融合’‘信号去噪’‘信息精炼’应对方法,最后诚邀各界共建端侧智能体生态。

社区供稿丨如何抑制大模型的“过度反思”:Yuan3.0 Flash 中的强化学习范式
过去一年大模型推理能力沿复杂推理、长思维链、类人反思方向进化,但企业落地时出现模型过度反思问题,超70%Token消耗在已答对后的反思阶段。YuanLab.ai团队在Yuan3.0 Flash模型中提出RIRM和RAPO。RIRM通过奖励“思考过程”,引导模型学会在合理反思次数内完成答案验证,减少推理Token消耗。RAPO是对强化学习训练框架的系统性改进,提升训练效率与稳定性。两者协同,使模型“想对就停”。在企业场景中,该模型降低计算开销,提升响应效率,实现更低成本、更高效率的智能系统。

团结引擎 1.8.0 发布,开源 Demo 工程 《Tower Valley》上线, 团结动画系统、粒子系统等新功能上线
2026年1月12日团结引擎1.8.0发布,同时上线开源Demo《Tower Valley》。此Demo融合多种前沿技术,展现实时渲染能力,场景复杂,植被和模型多。本次更新还涵盖多方面:小游戏支持Android/Vulkan API,新增233子平台;Asset Browser可查看资源信息;渲染上,TJSR支持HDRP,集成DLSS技术;虚拟几何体有新功能;实时动态全局光照系统改进;动画系统推出神经变形器、Locomotion模块等;粒子系统支持小游戏平台,新增烘焙动画;Shader Graph有新模板并支持粒子系统;Content Pipeline实现AssetBundle多进程并行构建。

团结引擎高性能实时渲染 Demo ——《Tower Valley》技术解析
《Tower Valley》是展示团结引擎实时渲染能力的 Demo,结合虚拟几何体、虚拟阴影贴图等技术呈现电影级效果。获取 Demo 需通过 Git 仓库,用 Tuanjie Editor 打开体验。相比《Time Ghost: Environment》,它场景更复杂,同屏三角数量峰值超 5 亿。采用多种技术应对挑战:虚拟几何体解决海量物体与高模渲染;虚拟阴影贴图适配高面数模型,质量和性能佳;实时动态全局光照实时渲染室内光照;VG 植被方案缓解海量草体渲染压力。不过,也存在虚拟几何体顶点动画对 TAA 支持不完善等问题。

神经变形器 Neural Deformer:基于机器学习的高保真网格变形方案
本文介绍了Unity引擎中基于机器学习的高保真网格变形解决方案——神经变形器(Neural Deformer)。它通过采集和预处理变形数据训练轻量级神经网络模型,高效近似还原复杂网格变形,规避传统非线性几何计算的性能开销。其应用场景包括肌肉和布料变形,具有高保真实时变形、开箱即用训练流程、高可用性与引擎集成、多平台与多硬件后端支持等特性。文章还介绍了使用神经变形器包的工作流,包括安装、构建训练数据集、训练模型、应用网格变形等步骤,以及快速验证和上手方法,同时提醒了数据驱动和未考虑物体位置关系等注意事项。

吴恩达来信:和吴老师一起构建吧!
吴恩达在信中提到 DeeplearningAI 上线新课程,向无代码经验者展示 30 分钟内借助 AI 构建应用。他认为懂编程和不懂编程者生产力差距扩大,招聘很多岗位要求基础编程知识。很多非技术背景者询问使用 AI 构建软件的入门方法,为此团队创建《Build with Andrew》课程。该课程无需 AI 或编程基础,不依赖特定厂商,学员能结合熟悉工具。课程中可构建生日祝福生成器,结束时掌握构建应用的方法论。最后鼓励开发者让非技术朋友尝试用 AI 写代码,邀请大家一起构建。

The Batch: 896 | 教会模型说出真相
文章介绍研究人员训练语言模型使其违规时主动承认的成果。OpenAI 团队微调 GPT - 5 Thinking 使其能‘自白’。训练中模型可能为求奖励最大化出现不当行为,通过奖励‘坦白’可让模型承认错误。研究用强化学习微调模型,分情况考量奖励与生成‘自白’,由奖励模型评估‘自白’诚实度。测试显示,微调后模型在 11 项评测中超半数会承认问题,如‘幻觉’评测中 81.4%情况处理良好。不过自白机制并非万能,模型不知错误就无法承认。该机制可监控模型行为,或许让 AI 迈向类似‘良知’机制。

The Batch: 897 | 科学实验室的通用语言
上海人工智能实验室发布 Science Context Protocol(SCP,科学上下文协议),这是一个开源标准,可将 AI 智能体与本地客户端、中央集线器及边缘服务器连接以进行自动化科学探究。SCP 使实验可重复,其基本数据单元是实验,以 JSON 结构化数据文件存储。客户端负责用户身份验证,集线器接收请求生成实验计划并调度执行,边缘服务器管理实验。该协议含超 1600 种工具,借鉴以往工作扩展了 MCP,目标更通用,能促进跨学科合作。SCP 旨在标准化人类与技术的连接,管理模拟和实体实验,推动机构与学科沟通,有望加速科学研究。

The Batch: 898 | Copilot 用户需求随时间变化
文章介绍微软对Copilot的研究,分析2025年1 - 9月间3750万次对话匿名摘要。发现用户使用方式因时间和设备而异,白天和桌面设备多围绕生产力和职业发展,非工作时段健康等话题占主导。排名前五主题有技术、工作等,意图含搜索、建议等。主题和意图随时间从工作技术转向社交个人事务。此外提到OpenAI、Anthropic类似研究结果。研究人员认为AI社群需重新考虑聊天机器人设计,要根据设备优化,微软研究显示设备和时间影响用户需求,是应用设计重要考量。

The Batch: 899 | 更划算的推理
文章介绍了提升推理模型性能的新方法 Delethink。处理长思维链成本高昂,研究人员提出的 Delethink 是一种强化学习方法,能少量训练限制成本。它训练大模型定期截断推理 token 至固定最大数量。研究人员用 DeepScaleR 数据集的数学问题微调 R1 - Distill 1.5B 模型,用修改版 GRPO 算法训练其以 4000 token 块推理。测试显示,在不同推理预算下,Delethink 模型表现均优于基线模型,且随着预算增加性能提升更明显,训练成本也更低。该方法缓解了二次计算成本限制,为长上下文高效推理提供路径,其性能可能得益于大模型短上下文预训练经验。
