
从“能用”到“会用”|如何写好一个 Skill
本文是 Skill 设计与开发的实践指南。先介绍 Skill 定义,指出它是指令文档,纠正等同 Prompt、写给人看、越复杂越强大的误区。接着说明设计标准,如精准元数据、合理指导方式。构建与迭代 Skill 遵循“评测驱动、失败优先”原则,包括建基线、定义评测用例、写最小化 Skill 等步骤。还提及让 Skill 可维护拓展的方法,如渐进式披露、定义工作流。可借助 AI 创建迭代,最后给出反模式检查清单。

如何让 AI 更“听话”|Rules 高效使用指南
文章围绕让AI更“听话”的TRAE Rules使用展开。单条Rule存在规模、冲突、时机问题,TRAE升级规则能力,引入多规则管理与精细化生效,还支持导入AGENTS.md / CLAUDE.md。介绍规则拆分方法论,先按职责分层拆,再做单一职责拆分,从职责、范围、风险维度决定是否拆分,同时要做好规则资产治理。给出多Rules实践示例,如快速启动配置规则、指定文件生效写法、智能生效触发词等。还提及个人Rules管理及复用既有规范降低迁移成本,最后强调把规则写成可维护资产,让AI更听话,目前多规则管理仅国际版支持。

ACM Multimedia | 京东零售广告创意:统一的布局生成和评估模型
本文介绍了入选顶会ACM Multimedia的Uni - Layout框架,旨在解决当前布局生成方法任务特定性及评估标准与人类感知不一致的问题。通过构建统一的分类系统和生成器实现跨任务统一布局生成,编制含10万标注布局的Layout - HF100k数据集并开发模拟人类的评估器,结合视觉和几何信息及思维链机制评估布局,还提出动态边距偏好优化(DMPO)技术对齐生成器和评估器。实验表明,评估器准确率达85.5%,布局生成模型在多指标上表现出色,验证了Uni - Layout的有效性。

1篇搞懂AI通识:大白话拆解核心点
文章以通俗语言按“基础→核心→优化→落地→工具→术语”逻辑讲解AI通识。基础概念介绍AI及机器学习、深度学习等关系,还提及预训练、大模型等;核心架构阐述传统与现代架构,如Transformer及其相关机制;优化技术包括MOE、量化等使模型更实用;典型模型介绍通用与垂直大模型及DeepSeek创新;常用工具涉及提示工程等;高频术语解释Token、AGI等。最后总结AI核心是从数据找规律到落地实用。

Oxygen 9N-LLM生成式推荐训练框架
本文介绍京东零售九数算法平台团队构建的Oxygen 9N - LLM生成式推荐训练框架。传统深度学习推荐模型面临瓶颈,生成式推荐成研究热点,但在工业场景规模化训练面临样本、框架、规模、流程等挑战。9N - LLM提供全链路方案,核心特性有高效样本引擎、大规模分布式稀疏Embedding引擎、灵活的RL训练能力及硬件适配。样本引擎从IO吞吐、灵活性、稳定性提供方案;稀疏引擎依托多级缓存和五级流水线架构,有调优策略;稠密计算复用优化技术,推出UniAttention库;强化学习基于Ray框架应对场景差异。未来将在基础设施和系统智能层面探索。

突破传统限制:OxygenREC--一个基于指令跟随的"快慢思考"电商生成式推荐框架
电商推荐系统存在传统多阶段级联系统目标不一致、引入LLM成本高、生成式推荐方法多场景扩展性差等问题。京东零售OxygenREC团队提出OxygenREC框架,引入“快慢思考”模式,解决推理能力与延迟的矛盾,实现多场景统一部署。该框架通过“快慢思考”架构平衡知识注入与低延迟,用语义对齐指令控制机制让指令发挥作用,基于指令与强化学习实现多场景统一对齐,构建大规模生产级系统。实验证明其在离线和在线测试中效果显著,未来团队计划向非自回归生成范式演进和开展跨场景用户轨迹建模。

Oxygen 9N-LLM生成式推荐训练框架
本文介绍京东零售九数算法平台团队构建的Oxygen 9N - LLM生成式推荐训练框架。传统推荐模型面临诸多瓶颈,生成式推荐虽有潜力,但在工业场景训练面临样本效率、框架协同、模型规模和训练流程等挑战。9N - LLM提供全链路解决方案,具备高效样本引擎,可提升IO吞吐、降低存储成本、支持断点续训;大规模分布式训练引擎能弥合框架鸿沟,优化性能;有灵活的RL训练能力,适配多模式;还全面适配GPU/NPU硬件。后续将从样本、训练优化和流程三方面阐述方案,未来会在基础设施和系统智能层面探索升级。

Andrej Karpathy 深度使用 Claude 编程随笔
Andrej Karpathy分享深度使用Claude编程的随笔。他的编程工作流在短时间内从80%手动+自动补全转变为80%智能体编程。他指出智能体存在易错、阿谀奉承、过度设计等问题,但仍是巨大提升。智能体不知疲倦攻克难题,拓宽了工作耐力瓶颈,还带来加速和扩张效应。其擅长循环达成目标,让编程更有趣,不过也使自身手动写代码能力退化。他预计2026年是数字内容“垃圾大爆发”之年,还提出关于“10倍工程师”等问题,认为大语言模型引发了软件工程相变,2026年将是高能之年。

视频生成推理加速实践:基于 torch.compile 的整图编译优化
文章聚焦视频生成推理加速,探讨基于torch.compile的整图编译优化。视频生成模型推理优化从算子级转向计算图级,本文借助torch.compile对Self-Forcing推理流程整图编译。Self-Forcing推理有优势但编译时面临诸多问题会触发Graph Break。采用渐进式优化策略,对注意力模块用特定配置编译。分析了导致Graph Break的原因,如控制流与标量提取、数据依赖与动态形状、KV Cache动态索引、Host调用与Python层缓存等,并给出消除方法。实验表明整图优化使推理耗时降低约47.6%,且无明显精度退化,整图编译能暴露系统复杂度,为底层优化奠基。

【淘宝直播数字人互动LLM】告别AI感:基于真人ASR数据的拟人化探索
文章针对数字人直播中LLM回复“AI感强、书面化”问题,提出基于真人直播ASR数据的拟人化训练方法。先构建〈AI回复, 拟人化回复〉数据对,训练拟人化改写模型;再训练拟人化奖励模型,融入强化学习框架使生成模型直接输出拟人化回复。实验表明,该方法在保持准确性和帮助性的同时,显著提升语音交互真实感与用户体验。未来将细化拟人化打分机制、考虑SFT后再RL、解决长文本问题及探究文本风格迁移方法。

Agentic Coding场景下基于职责分离的上下文管理思路分享
本文提出 Agentic Coding 场景下基于“职责分离”的上下文管理新思路。先介绍上下文概念及工程核心工作,指出长上下文会致模型性能下降。分析工具上下文,如 read_file 和 write_file 工具存在上下文膨胀、路径模糊等问题。提出将工具职责分离为“行为”与“影响”,如用 open_file 和 close_file 替代读文件工具。引入“记忆/遗忘机制”,划分“事实记忆”与“行为记忆”,组织上下文避免膨胀。还可通过 XML 结构化上下文,让“影响”传播和继承,该思路有跨任务复用潜力。

词向量:AI理解语言的基石
文章介绍词向量是AI理解语言的底层基石。传统文本处理的one - hot编码有局限,而词向量将词映射到低维稠密空间,让机器有“语言直觉”。其应用广泛,可实现语义搜索、支撑个性化推荐、打通多模态理解。词向量通过看词的上下文“学”语义,能捕捉语义关系。它经历从静态到智能的演进,有静态嵌入、上下文嵌入、专用嵌入模型等阶段。文中给出代码测试示例,还针对不同项目场景给出使用建议。不过,词向量有局限,如无法处理复杂语境等,现代系统转向上下文感知的句子嵌入。

Three.js Skills 发布!0 门槛上手 Three.js!
文章介绍了 threejs - skills,它是一套给 AI 用的 Three.js 经验包。因 Three.js 对前端难,AI 写其代码易翻车,如用不推荐 API、不释放资源等。threejs - skills 像 Three.js 的「避坑清单(AI 专用)」,按技术模块拆分,涵盖场景初始化、几何体、材质等内容。使用时可安装到本地,装与不装效果差异大,能让 AI 写代码更具工程思路、考虑性能和维护。它和 vue - skills 指向同一方向,降低了 Three.js 使用门槛,值得用 AI 写 Three.js 的人尝试。

从0到1玩转Clawdbot:我花了40小时,把这些坑都踩完了
本文作者花40小时研究Clawdbot,分享使用心得。Clawdbot是装了手的Claude,能通过聊天软件直接干活。它分即装即用和需折腾的两个级别,前者如文件管理、简单查资料等,后者像高级邮件管理、交易自动化等。虽宣传诱人,但高级功能需配置。真实案例显示其效果显著,但非魔法,需明确需求、投入时间。它有自我改进功能,也有做不到的事,使用有成本。适合懂技术、愿折腾的人,不同人群使用效果有别。作者认为它是未来工作方式预览,建议从简单用例开始学习使用。

KOOK 携手火山引擎 RTC ,重构游戏开黑新体验
游戏玩家对开黑体验要求严苛,KOOK 与火山引擎 RTC 展开深度合作。KOOK 此前存在嘈杂环境语音不清晰和高画质屏幕共享性能不稳定两大痛点。双方针对痛点打造专属优化方案,AI 降噪与音频 3A 协同处理音频,实现零干扰纯净语音,高性能屏幕共享方案解锁 4K 超高清流畅体验。未来,双方将聚焦 AI 智能搜索和游戏 AI 助手应用,构建智能化游戏社区,推动游戏社交领域发展。

来火山引擎部署Moltbot,9.9元打造私人AI助手
Moltbot是现象级开源AI Agent项目,热度上升,在GitHub获98k Star。个人电脑部署Moltbot有算力占用、硬件损耗和数据风险。为此,火山引擎云服务器ECS推出“AI套餐”,包月9.9元起,包年58元起。介绍了基于Moltbot打造专属飞书AI员工的两步部署方法,包括选购ECS、配置模型与飞书机器人。还提到火山引擎AgentKit将推出基于MoltBot的解决方案,有企业级安全管控、零配置负担等价值,可通过飞书指令让云端Moltbot自动完成任务。

Java 再升级!JDK21 + 虚拟线程技术大规模落地方案解密
本文围绕 JDK21 + 虚拟线程技术在小红书的大规模落地展开。先介绍虚拟线程概念,对比其与平台线程,阐述 JVM 实现虚拟线程需解决的核心问题及调度、阻塞管理机制,还通过测试对比线程与虚拟线程开销。接着说明 RedJDK21 针对 Synchronized 阻塞、JNI 阻塞等做的改造,以及用户无感接入方案和监控诊断建设。然后提及 RedJDK21 相对 OpenJDK21 的改动及优势。最后讲述该技术落地成果,包括在多业务链路的性能优化,还规划了虚拟线程 2.0 在稳定性、可观察、灵活性方面的改进方向。

从“人治”到“机治”:得物离线数仓发布流水线质量门禁实践
随着企业数字化转型,大数据业务“高频变更”与“超大规模”并存,给任务发布变更带来挑战。得物离线数仓发布流水线项目目标包括确保增量任务发布消费场景绑定率 100%覆盖、完成存量资产消费场景绑定,实现数仓任务发布流水线管控 100%覆盖并提升任务发布效率 60%。项目方案涵盖数仓任务资产管理和数仓变更管控流水线。前者围绕消费场景定义、注册、绑定及应用;后者包含质量定义、告警策略、发布流水线管控等环节。目前流水线已能支撑数仓日常迭代变更发布管控,未来规划包括节点能力优化和流水线能力补充。

AAAI 2026|基于思维链与强化学习的可解释多模态广告审核护栏
随着短视频商业化发展,广告违规呈隐蔽化等趋势,现有审核体系面临挑战。快手团队提出BLM - Guard框架,其融合多模态思维链与强化学习。该框架采用两阶段训练范式,第一阶段规则锚定的ICoT冷启动解决黑盒模型理解规则问题,第二阶段基于SCA - R的强化学习应对策略漂移。在多个数据集上,BLM - Guard展现SOTA性能,准确率和推理一致性提升显著。未来,团队将围绕理解生成模型、风控大模型基座等方向深耕。

Context Is All You Need:快手后端AI Coding的实践与思考
本文围绕快手 Java 后端 AI Coding 展开。先以真实案例指出直接让 AI 改代码会出现漏改、错改问题,原因是 AI 只能感知局部上下文。后端 AI Coding 推进慢,因 PRD 非后端可执行语言,后端复杂度藏在 PRD 外。快手探索分两阶段:一是解决上下文问题,将代码库抽象为图谱,让 AI 获系统视角;二是解决可控性问题,引入 Multi - Agent 架构。新研发范式下,工程师负责概要设计,AI 负责执行。通过两个“中间层”,使 AI 从“猜需求写代码”转变为“按工程计划执行代码”,精准 Context 和提升可控性是关键。

IntelliJ IDEA 2026.1 EAP 正式发布!支持 Java 26,Spring Boot 4 深度支持!
2026年1月29日,JetBrains发布IntelliJ IDEA 2026.1 EAP。该版本支持Java 26,适配Spring Boot 4,优化构建工具,升级开发体验,修复600多个Bug。语言特性上,支持Java 26及JEP 530,实现原始类型模式匹配,提升性能与简洁性。Spring生态深度适配Spring Boot 4,增强Spring Data JDBC,提升调试稳定性。构建工具支持Gradle 9和Maven 4。开发体验上,增强Lombok插件,修复框架问题,优化Javadoc转换。此版本适合尝鲜开发者、Spring开发者和关注构建性能者,建议非生产环境使用并备份配置。

傅聪联合人大发布OnePiece:首个全面落地推理能力的工业级生成式搜索框架
2026年1月29日,傅聪团队联合人大高瓴学院发布工业级生成式搜索框架OnePiece。当前生成式推荐技术多聚焦基座模型训练,OnePiece将推理技术应用于推荐,可强化模型对“上下文”感知,分摊算力和参数压力。它融合上下文工程、隐式推理和多目标训练,引发广泛关注。该框架提出上下文工程框架,引入锚点物品序列;采用自回归的隐式推理;利用用户反馈的“渐进性”引导差异化“思考”。离线实验显示,OnePiece在多步推理信息带宽、推理组织性和稳定性上有优势;在线实验表明,在召回和prerank阶段可提升GMV和广告收入。未来将打造OnePiece 2.0,构建通用工业级搜推模型。

新闻App评论后端体系的'昨天今天明天'
文章聚焦新闻App评论后端体系的“昨天、今天和明天”。早期评论发布后以盖楼形式展示,采用“邻接表”+“路径枚举”混合模式实现,热门评论按点赞数倒序。随着发展,评论系统需分库分表,采用预判文章id方式实现。评论列表展示变为平铺,有按点赞数、类“推荐”、算法得分三种最热策略。还自研SNS评论实验系统,实现话题聚合。未来可建设评论中台,引入AI优化评论系统架构,如合规检查自动化、情感分析排序等,实现从传统评论系统到AI驱动评论系统的转变。

以商家意图为中心的AI千牛设计探索
文章围绕以商家意图为中心的AI千牛设计展开。传统千牛系统使商家学习成本高,存在‘经营意图的翻译成本’问题。Agent技术成熟带来契机,让设计从‘功能入口’转向‘经营意图’。输入体系分意图发散与表达,前者针对不同经营角色设计差异化首页,后者构建复合输入框适配三类经营意图。输出设计从‘固定流程’转向‘意图驱动’,分分析决策、任务执行、素材生成三种框架。还搭建千牛AI组件库规范体验。最终希望千牛AI成为商家可靠伙伴。

淘宝设计 × 中国美院【互动游戏设计趋势研究】
淘宝与中国美院联合开展互动游戏设计趋势研究。淘宝端内互动游戏矩阵丰富,是核心体验之一。研究聚焦用户变化,解构体验方法体系,探索驱动用户增长路径。课题从类型、美术、UI、动效四个维度模块化研究,形成图谱体系。实践案例展示了各图谱在淘金币、种地吧、芭芭农场等业务的应用。后续将按‘机制化沉淀 + 场景化验证 + 体系化推广’推进,完善框架与资产库,确保产出先进体验。

在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
近日,开源项目Moltbot(ClawdBot)受全球开发者关注,它可在日常聊天窗口调度工具完成多种任务,已在Github获超80000 stars。为满足开发者模型体验,火山方舟多款模型服务适配其技术生态,火山引擎方舟Coding Plan支持MoltBot。订阅该套餐新用户有优惠,推荐好友还有额外福利。文章还分别介绍了面向个人开发者和企业客户的MoltBot接入火山方舟Coding Plan的配置流程,最后提醒使用MoltBolt要注意安全与隐私风险。

OpenViking:面向 Agent 的上下文数据库
文章介绍了专为AI Agent设计的开源上下文数据库OpenViking。AI Agent发展中,开发者面临上下文管理难题,如无序割裂、长程任务处理难、检索效果局限等。OpenViking采用文件系统范式,将记忆、资源和技能统一结构化组织。其核心理念包括文件系统管理范式、分层上下文按需加载、目录递归检索、可观测与自迭代。它能解决碎片化问题、降低Token消耗、提升检索效果、使上下文可观测和自迭代。文章还给出三分钟上手步骤,最后呼吁开发者开源共建,定义下一代Agent上下文标准。

MEUX「一月」AI设计观察
本文为MEUX「一月」AI设计观察,涵盖多则AI资讯。智谱华章成全球大模型第一股,上市首日表现佳;高德自研模型FantasyWorld登顶,扫街榜2026升级;腾讯混元给开发者免费资源;千问App上线AI购物等办事功能;腾讯姚顺雨称AI落地To C滞、To B兴;斯坦福SleepFM模型可预测疾病;谷歌推出TranslateGemma翻译模型;2026 CES上AI走向实体;Meta收购Manus;马斯克xAI推出Grok Build编程工具。

百度地图2026新春出行预测:人员流动量预计再创新高,重庆或成最热迁入地
2026年春运如期而至,百度地图联合多方发布《2026新春出行预测报告》。春运40天跨区域人员流动量持续增长,前半程客流稳步到快速攀升,春节假期除夕、初一流动量降低,初二至初七高位运行,后半程正月初六和十五左右有返程高峰。部分高速路段、收费站、服务区将较拥堵,新能源服务区充电需求上升。地域上,广东是最大人口输出和迁入地,河南、四川是返乡热门地,重庆超越北上广深成最受欢迎迁入城市。百度地图“春运护航计划”启动,“AI副驾”升级,还开展互动有奖活动。

QQ-Studios Showreel 2025
2026年1月27日发布的QQ - Studios Showreel 2025回顾了2025年QQ与腾讯文档体系的设计成果。这一年两大体系不断优化升级,团队以‘It iS Ultra eXperience 这就是极致体验’为初心,在社交用户体验、AI、品牌等设计领域深耕,探索打造极致用户价值与未来可行性。展示了QUI刷新、PCQQ、空间改版等多项设计成果,最后感恩匠人努力与用户支持,预告2026年将做更多未来式探索。

“痛点”到“通点”!一份让 AI 真正落地产生真金白银的实战指南
本文是让AI落地产生商业价值的实战指南。AI已深度融入企业运营,但规模化应用面临挑战。文中剖析现状与场景,银行业用AI重构信贷与风控流程,保险业在理赔、承保等环节应用AI。介绍BPMN三部曲改造流程,分评估、识别、提升三阶段。指出企业落地AI有组织文化、技术业务、流程重构痛点,给出破局办法。还提到组建流程数字化卓越中心,发挥流程挖掘作用,助力企业将AI转化为增长驱动力,强调企业应坚守原则,推进AI流程再造。

万字详解大模型推理加速核心原理:分形规律与资源计算公式
文章围绕大模型推理加速展开,提出分形思考框架以应对复杂优化局面。首先介绍大模型推理优化的分形本质,核心矛盾是硬件资源不足与不均衡。以DeepSeek R1/V3为例,阐述‘看清楚’阶段,解析模型架构,给出算力、显存、显存带宽、通信带宽四大资源的选择思路和测算公式。接着,分‘避免浪费’‘提升利用率’‘节约资源’三阶段进行优化:消除Prefill重复、CPU-GPU交互空隙和算子冗余;采用PD分离、并行策略调优等提升资源利用率;运用MLA架构、量化与稀疏化等节约资源。最后总结分形思考框架可系统性优化推理性能,并对未来工作进行展望。

Clawdbot一夜爆红,教你一键秒级部署7×24h核动力“牛马”!
本文介绍Clawdbot,它是AGI雏形下的AI智能体。其爆火原因在于代码由AI完成,人机协作方式独特,运行在用户环境,通过聊天软件交互,有完整操作权限与超长记忆。因仅支持海外社交软件,国内体验需部署。文中指出其适合运行在与主力电脑隔离环境,云服务器是优选,尤其腾讯云轻量应用服务器Lighthouse。还详细介绍在Lighthouse上部署Clawdbot的两种方式,包括选购新实例、重装旧实例,以及后续配置步骤,如同意免责声明、选配置模式、配模型和聊天软件等,并给出验证部署成功及首次交互、功能测试方法,最后给出安全使用建议。

腾讯混元AI Infra核心技术重磅开源:推理吞吐提升30%!
2026年1月27日,腾讯混元AI Infra团队开源生产级高性能LLM推理核心算子库HPC - Ops。该算子库基于生产痛点,用CUDA和CuTe构建,降低开发门槛,逼近硬件峰值性能。真实场景下,混元模型推理QPM提升30%,DeepSeek模型QPM提升17%,单算子性能也有显著提升。主流算子库存在使用成本高、目标硬件不匹配问题,HPC - Ops通过任务与硬件对齐、精细调度重排、聚焦计算逻辑等优化。关键实验显示其在核心模块性能超SOTA。未来将研发稀疏Attention算子、拓展量化策略、布局计算 - 通信协同优化内核。

一夜爆火,Clawdbot是否才是真正的AI入口产品?
文章介绍近期在GitHub爆火的开源项目Clawdbot(现改名Moltbot)。它定位为个人AI助手,采用本地优先架构,通过常用聊天软件交互,可操控本地文件等。部署需准备核心环境,按步骤克隆项目、配置变量、接入通讯网关等。从产品层面看,它交互“去中心化”,无独立App,降低AI介入心理摩擦;从“对话中心”转向“执行中心”,连接工具生态广;采用“Local - first”,数据本地存储。不过,使用时要注意安全风险,目前应谨慎使用。

大模型思维链推理速度倍增!——RoT新框架把思维链「画」进隐空间
随着大模型规模扩大,思维链(CoT)成处理复杂推理任务的标准范式,但显式 CoT 依赖长序列生成,导致推理延迟和显存消耗;隐式 CoT 虽探索将推理过程内化,但面临优化挑战和缺乏中间监督问题。为此,文章提出全新范式 Render-of-Thought (RoT),利用多模态模型中冻结的视觉编码器,将文本推理步骤渲染为图像的视觉嵌入,实现 3 - 4 倍的 Token 压缩。RoT 实现分视觉对齐和潜在监督微调两阶段,推理有动态和静态两种终止策略,实验显示其有显著压缩加速、准确率高、隐空间推理可分析等优势。不过,RoT 仍存在自适应推理长度、黑盒可视化、验证场景广度深度等问题待探索。

打造Jarvis,OpenClaw很野,但Agent Studio简直变态
文章围绕打造个人 AI 助手展开,对比 OpenClaw 和 Agent Studio。OpenClaw 是成熟开源项目,支持多消息平台,适合技术团队搭建 Agent 基础设施。而 Agent Studio 定位为个人 Agent 工作台,以企业微信接入为例,展示 5 分钟完成接入流程,具有图形化配置优势。其功能强大,有定时任务、自定义 Agent、A2A 协议和 MCP Admin 元操作能力。相比 OpenClaw,Agent Studio 更聚焦本地和个人场景,代码开源,适合快速搭建个人 Jarvis,让用户打造适合自己的 Agent 工作台。

腾讯郭凯天:让AI成为尊重人、成就人、有温度的力量
2026年1月27日,腾讯科技向善创新节2026举办,腾讯高级副总裁郭凯天开场致辞。他回顾科技向善历程,称其让腾讯明确自身定位。谈及AI向善,他分享三个观点:一是耐心,AI发展是漫长马拉松,各行业都要融入,技术需与场景和用户深度匹配;二是信心,AI是能力普惠的放大器,能调整分工、助力人;三是善心,要考虑让跟不上AI发展的人不落下,这是科技向善本质追求。他强调要为AI确立向善价值观,让其成尊重人、成就人、有温度的力量。

腾讯司晓:用让人放心的技术,迎接把人放大的未来
2026年1月27日,腾讯科技向善创新节2026举办,腾讯集团副总裁司晓在上午场闭幕发言。他回顾九年前腾讯提出“科技向善”是底线思维。如今大模型、生成式AI爆发,技术有了“像人”一面,腾讯思考进阶为“让人放心,把人放大”。“让人放心”要保证“人”的主体性,关键决策人能介入。“把人放大”从能力、价值、精神三个层面展开,AI应延伸人的能力、放大价值、让人有更多自由。最后,腾讯研究院将启动“AI & Society创造营”,号召全社会共创,用放心技术迎接放大人类的未来。

腾讯首席科学家张正友:具身智能已经走到多智能体互动的全新阶段
2026年1月27日,腾讯首席科学家张正友在腾讯科技向善创新节演讲。他提出“虚实集成世界”概念,区分“离身智能”与“具身智能”。介绍AI交互方式从搜索引擎、生成式AI到交互式AI的演变,智能体有感知、决策等特征。指出具身智能受关注但身智融合不足,将机器人演进分三个阶段。腾讯Robotics X经多年发展到SLAP 3,联合推出TAIROS具身智能开放平台。还展示多智能体交互框架和人居环境原型机器人,强调身智融合,认为具身智能可通向通用智能机器人。

2026前沿科技趋势:塑造自己的下一个版本
本文由腾讯研究院发布,从用户视角展望2030年科技趋势。在生命力方面,人类生命将迎来“第三次转型”,基因疗法和人工智能助力延长健康寿命;体力上,外骨骼、飞行和潜水技术拓展人类行动边界;脑力领域,外脑2.0和脑机接口发展;创造力上,AI眼镜、智能体和机器人提升个人创造力,小团队展现大能量,大企业寻求变革。同时,文章提醒人们能力倍增后要反思,面对机遇与挑战,追求真、善、美,塑造更好的自己。

[A's周刊 16] 未来进行时
A's周刊16期探讨科技趋势。一是《麻省理工科技评论》发布“2026年十大突破性技术”,涵盖气候与能源、人工智能、生物技术、太空领域,如钠离子电池、生成式编码等,展现未来科技图景。二是沃尔沃推出定制字体Volvo Centum,经专门工程化处理,提升阅读速度与驾驶安全性。三是Google的Gemini设计,因AI进化挑战传统设计一致性,团队用渐变色和圆形构建视觉语言,让产品直观、值得信赖。

新春特辑|姹紫嫣红·魏紫东方:携手非遗传承人黄荣华开启新岁篇章
腾讯设计团队新春携手非遗传承人黄荣华开启新岁篇章。植物染是以草木花果为染料的古老工艺,黄荣华构建了中国传统色天然染色谱。草木之色在合成染料盛行后重新被珍视,其讲究‘顺时而作’,延续着人与自然的情感与记忆。腾讯团队与黄荣华以紫色谱系为源,推出2026‘紫气东来’新春系列QQ个性化主题。设计使古典紫的神圣意涵被当代表达唤醒,与吉祥寓意相合。画面以姹紫嫣红为底色,借鉴技法,藏着新年期许。还介绍了主题在QQ和腾讯文档的领取方式,以及相关沉浸体验活动。

LingBot-Depth 正式开源:让机器人“看清”物理世界
2026年1月27日,蚂蚁技术正式开源空间感知模型LingBot - Depth。它是面向真实场景的深度补全模型,基于深度引擎芯片直出数据训练,能将不完整深度传感器数据转化为高质量三维测量结果。实验显示其在深度精度等指标超业界顶级工业级相机,在多基准测试达最优水平,还通过专业认证。技术上采用创新掩码深度建模范式应对透明反光物体感知难题。核心亮点有精准稳定相机深度感知、卓越3D和4D环境感知、适用于透明反光物体的灵巧抓取操作。该模型提升消费级深度相机对高难物体处理效果,已与奥比中光合作,且实现轻量化与端侧部署。后续还将开源RGB - 深度数据,推动空间感知技术发展。

LingBot-VLA 具身大模型全面开源
2026年1月29日,蚂蚁技术全面开源具身大模型LingBot-VLA。在GM-100和RoboTwin 2.0评测中,其跨本体和跨任务泛化性能领先。该模型基于大规模真机数据预训练,研究发现其性能随预训练数据量增加而提升,据此构造20,000小时真实机器人训练数据,并在开发中做了适配优化。采用基于查询向量的深度蒸馏方法,将深度信息集成到模型,提升操控性能。LingBot-VLA通用操控能力强,后训练成本低、效率高,代码全开源,已与多家厂商完成适配。希望借此推进具身智能研发进入新阶段,未来还将公布更多成果。

世界模型 LingBot-World,正式开源!
2026年1月29日,蚂蚁技术正式开源世界模型LingBot - World。它是交互式世界模型开源框架,核心LingBot - World - Base提供模拟环境,由可扩展数据引擎驱动,在多指标上领先。具身智能真机训练数据稀缺,世界模型可解决此问题。LingBot - World有长时序一致性与记忆能力,解决了视频生成‘长时漂移’;支持高保真实时交互,优化了生成吞吐和交互延迟;采用混合数据策略,具备Zero - shot泛化能力。它能为智能体提供试错空间,提升具身智能算法泛化能力,但存在推理成本高、稳定性和控制精细度待提升等局限。目前模型权重及推理代码已开源。

全球首个自回归视频-动作世界模型,LingBot-VA 正式开源!
2026年1月30日,蚂蚁技术AntTech开源全球首个自回归视频 - 动作世界模型LingBot - VA,这是「蚂蚁灵波开源周」收官之作。传统机器人学习范式难泛化,世界模型虽有新可能,但转化“行动”能力是挑战。LingBot - VA提出自回归视频 - 动作世界建模框架,融合视频生成与机器人控制,将预测转化为行动。它处理时序信息有长期记忆和少样本学习优势。采用MoT架构,有闭环推演、异步推理与持久化机制。在真实和仿真评测中表现出色,任务成功率显著提升,模型权重、推理代码已全面开源。

货拉拉待办中心架构设计:打造高效可靠的任务中枢
文章围绕货拉拉待办中心架构设计展开。待办在货拉拉业务中意义重大,按特性分常规、限时、阻塞三级。原架构因业务扩张面临接口稳定性与低延迟、业务灵活性与扩展性不足的挑战。新设计围绕‘标准化、性能优化、解耦扩展’,提炼标准待办模型与生命周期,用本地数据库结合缓存查询,设计领域事件解耦。关键设计包括待办生命周期管理(含三种模式与数据一致性保障)、三层流量控制、场景弹性扩展及稳定性设计。方案落地后已接入50+场景,支撑大量待办生成与查询,完成从功能模块到待办中心的升级。

Kimi K2.5 提前炸场:能虚拟出100个"分身"来帮我们干软件研发了
2026年1月27日,Kimi K2.5正式发布并开源,它是基于1.5T混合视觉与文本Token预训练的原生多模态模型。其构建的Visual Agentic Intelligence系统,能动态创建并指挥智能体“工作团队”并行工作,效率大幅提升。K2.5还实现了从“看图说话”到“看图编程”的跨越,能生成完整可用代码并进行视觉调试。在软件研发各环节,K2.5带来变革,如需求理解更高效、UI/前端开发变创意活等。它是系统性革命,已在实际场景验证,也将改变工程师角色,推动软件工程进入3.0时代。

我们把弗洛伊德请出了心理学神殿,现在,是时候请他回来拯救AI了
文章围绕大语言模型心理学研究展开。起初人们乐观认为借用心理学方法可揭开其认知奥秘,但问题未解决且更尖锐。新兴领域重演人类心理学早期悲剧,方法论退步,陷入理论贫困,如行为主义、相关性、隐性知识问题。机械可解释性研究虽有进步但有局限。人类心理学的进化框架对大语言模型失效,可转向精神动力学构建新精神分析学。大语言模型研究面临本体论、理论碎片化等局限。它虽带来挑战,但复活并扩张了心理学疆域,促使探索通用智能物理学。

让 AI Agent 安全“跑”在云端:基于函数计算打造 Agent 代码沙箱
随着大语言模型发展,AI Agent 能力扩张,但开发者面临资源隔离和可控性挑战。阿里云函数计算 FC 提供新思路,其底层轻量级安全沙箱与 Agent 代码执行环境需求契合。文章指出构建 Agent 代码沙箱是刚需,需满足安全隔离、资源管理等诉求。Serverless 函数计算因安全隔离、弹性伸缩等优势,成为构建 Agent 运行时理想选择。还介绍了基于函数计算构建沙箱能力的实践,包括协议扩展、有状态会话管理和配套能力强化。最后表示已实现从单一函数执行到复杂 Agent 托管平台的跨越,未来将持续优化核心能力。

又快又省:SLS 新版日志聚类,从海量日志发现模式的智能引擎
文章介绍阿里云 SLS 新版日志聚类,它能从海量日志自动发现类别、提取模板。传统日志分析面临信息过载等问题,旧版日志聚类有索引存储成本。新版采用查询时聚类,零额外索引流量,有智能采样和变量识别算法。其核心计算通过 SPL 算子实现,前端渲染有虚拟滚动等技术,支持正则反查。典型场景包括定位故障、版本发布对比、多模块分组分析。算法选择查询时聚类基于灵活性等考虑,分层采样可平衡效率与精度。未来可与异常检测等结合,提升日志分析智能化。

拒绝“Demo 级”架构:基于 SAE × SLS 构建 Dify 高可用生产底座
本文是《Dify x SLS构建高可用生产级AI架构》系列第二篇,介绍基于阿里云SAE×SLS的Dify生产级解决方案。Dify规模化落地存在运维管理复杂、数据库容量爆炸等架构瓶颈。SAE与SLS协同赋能,SAE负责弹性算力调度,SLS专攻海量日志存储。通过SAE应用中心的模板可极简部署。SAE团队攻克组件并发与数据库连接、Redis单点瓶颈等问题,使吞吐量从10 QPS提升到500 QPS。SLS可对工作流日志深度挖掘,构建全景仪表盘。SAE与SLS联合方案带来全栈Serverless化架构质变,让开发者专注业务创新。

Qoder 全面支持 Skills,上手超简单!
文章介绍了 Qoder 的 Skills 功能。Skills 可将常用指令打包成“技能”,本质是 Markdown 文件,有用户级和项目级,同名时项目级覆盖用户级。Qoder IDE 智能会话、Quest、CLI 及预计本周支持的 Jetbrains 插件都支持它。上手可先复用网上资源,如 skills.sh 网站的实用技能,零配置、开箱即用。查看已装技能可问 AI 或在对话框输入 /。创建技能可通过自然语言或 /create - skill 让 Qoder 帮忙,创建后若不生效可让其检查,技能会随需求进化,还能让 AI 封装开源项目成 Skill,核心是将重复工作自动化、沉淀最佳实践。

手把手教你用云效 MCP 实现项目自动化管理
云效 MCP Server 为研发提供统一可编程能力,覆盖组织、代码、项目等多模块。文章手把手教利用其实现项目自动化管理:先准备 AI 工具并完成 MCP 配置与自检;接着介绍实用场景,如检索统计工作项、拆分需求、优化需求内容、批量导入需求;还给出更多项目管理场景示例,像项目健康度检查、迭代规划等。最后指出 MCP 带来执行指令化、经验模板化、精力聚焦化价值转变,下一篇将探索代码管理场景。

先建“语义基座”,再谈运维智能!阿里云以 Operation Intelligence 定义 AIOps 新范式
文章指出大模型推动 AIOps 迈向智能化,阿里云云原生应用平台周琦倾向用 Operation Intelligence 定义 AIOps。回顾其十年发展,通用大模型和数据整合技术突破重塑底层逻辑,企业对其认知和需求升级。大模型让 AIOps 能力跃迁,阿里云提出该理念并概括为感知、认知、行动三层能力进化,还设计双重保障机制应对“幻觉”问题。阿里云构建智能运维新范式,架构分三层,已在多家企业落地。此外,阿里云在开源、标准、生态协同发力,推动“技术平权”。未来短期低风险任务自动化、多角色 Agent 协同,中长期形成全生命周期智能闭环,运维人员角色和能力将重构。

别再嫌弃MySQL了!AI时代,当DuckDB拥抱MySQL
文章介绍了AI时代下MySQL与列式存储引擎DuckDB结合的情况。RDS MySQL将DuckDB嵌入内核,弥补其AP能力不足,采用“MySQL为主、DuckDB为辅”策略。推出DuckDB只读和分析主实例两种形态。主实例增强核心能力:适配Binlog,提供集群部署、保障一致性等;具备高可用和数据安全保障,对标MySQL高可用实例;数据入库性能高,支持多种写入方式;兼容性增强,提升SQL和函数兼容性。客户实践中,某出行平台用DuckDB主实例汇聚数据,满足多源同步需求且性能提升,降低存储占用。后续还将朝数据湖集成方向演进。

模型训练篇|多阶段ToolRL打造更可靠的AI导购助手
文章围绕打造AI导购助手“租赁小不懂”展开。AI导购成电商与服务平台新风口,但芝麻租赁场景挑战大,存在需求难匹配、决策效率低、服务太被动等痛点。早期技术方案有架构之痛和模型能力边界问题,为此进行架构升级,采用“One - Model + Tool - Use”架构,将能力沉淀为原子化工具,性能大幅提升。算法上采用两阶段强化学习,解决SFT不足和稀疏奖励难题。实践成果显著,离线和线上评测数据提升明显。还对MoE模型训练和推理进行优化,训练加速近10倍,推理显存占用降40.6%。最后强调团队模式和技术选型应聚焦解决实际问题。

刚刚,阿里云上线 Clawdbot 全套云服务!
2026年1月28日17:53,阿里云正式上线Moltbot(原名Clawdbot)全套云服务,为Agent提供算力、模型和消息应用等。用户能在阿里云轻量应用服务器或无影云电脑快速启用,按需调用阿里云百炼上一百多款千问系列模型。消息通道支持iMessage,还能实现钉钉消息互动。云服务器部署教程:先在轻量应用服务器安装Moltbot镜像,再配置Moltbot,包括创建API - Key、放通端口、配置API Key、生成Token等。此外,阿里云无影云电脑上线内置Moltbot和应用软件的专属镜像,预装多种软件,支持多软件唤醒Moltbot,一键导入镜像可启动。

AI Agent 记忆系统:从短期到长期的技术架构与实践
文章围绕AI Agent记忆系统展开,介绍其基础概念、架构、工程策略及技术挑战。记忆分为会话级和跨会话级,对应短期和长期记忆。Agent框架集成记忆有通用模式,短期记忆注重上下文工程,含缩减、卸载、隔离策略;长期记忆需完整架构,包括信息提取和检索组件,存在准确性、安全隐私和多模态支持等挑战。当前行业呈现从研究向生产、从单一向综合发展趋势,有记忆即服务等技术趋势,主流技术路径为外部记忆增强和参数化记忆,mem0在长期记忆产品中占领先地位。

Moltbot实战:MoltBot+RDS AI助手Skill管理RDS实例
文章围绕Moltbot+RDS AI组合管理RDS实例展开。先指出传统数据库运维痛点,引出该组合。介绍选择理由,阿里云RDS AI助手上线后积累大量用户,其将AI能力集成到Claude Code,Moltbot霸榜GitHub,二者结合有自动化诊断和运维管理能力,且开源可定制知识库。接着给出5分钟对接实战步骤,包括安装基础环境、创建RAM子账号、获取skill,再进行配置和AKSK认证信息配置。还提及运维场景实测,如创建定时任务获取慢SQL日志。最后强调智能运维让DBA专注创造性工作,同时提醒注意风险。

自建一个 Agent 很难吗?一语道破,万语难明
作者分享为传统研发平台接入 Agent 开发能力的经验。先介绍奥德赛研发平台背景,因 AI Coding 工具提升前端生产力,想让后端也受益。技术选型上,选宿主页面 Iframe 嵌入 Agent 方式。应用框架用集团 Faas 基建、Next.js + React 和 LangGraph。方案落地时,初始化应用框架,用 Claude 模型。接着进行系统提示词优化,如角色设定、用 XML 和示例。知识库建设分线上热门脚本、系统内置字段、服务端代码理解三类。工具接入含远程和本地工具。上下文管理方面,实现连续对话,解决 UI 工具调用问题,还通过压缩工具响应结果和上下文解决上下文超长问题,后续需采集 bad case 持续优化。

阿里重磅开源!OpenSandbox:专为 AI Agent 打造的下一代沙箱
阿里于2026年1月29日开源OpenSandbox,这是面向AI应用的通用沙箱平台,为大模型能力提供安全执行环境。它有多语言SDK、企业级并发调度能力等特点,具备多语言SDK友好、统一协议可扩展等六大亮点。在企业应用场景广泛,如Alibaba Coding Agent、Coding产品评测、Agentic RL训练和Remote Agent Sandbox等。该项目遵循Apache 2.0开源协议,社区正在建设,欢迎参与。

Clawdbot 深度拆解: 7 个问题看懂它。
文章深度拆解开源项目 Clawdbot(现名 Moltbot)。它是开源免费、本地运行的个人 AI 智能体,类似 Cowork 但有独特魅力,如入口多样、有主动性等。其创意场景丰富,可清理收件箱、安排日程等。安装配置可先最小化配置,再让其辅助。架构含 Gateway、Agent 等核心模块。不过,它面临安全风险,Token 消耗大且不稳定,适配海外生态,缺乏国内主流 IM 官方支持,但仍是展示未来工作生活新可能的里程碑。

Android Studio Otter 3 功能更新:LLM 架构全面升级,重塑智能体开发体验
本文宣布 Android Studio Otter 3 功能更新稳定版发布,带来诸多实用功能。自带模型支持使用任意大语言模型驱动 AI 功能,可接入远程或本地模型,添加 Gemini API 密钥能调用最新模型。智能体模式功能改进,可在设备操作应用、审查代码变更、多线程对话管理。“旅程”功能利用自然语言进行端到端界面测试,更稳定易维护。还支持连接远程 MCP 服务器,界面开发体验提升,可根据设计稿生成代码、迭代优化等。App Links Assistant 集成智能体简化深层链接创建,Logcat 自动回溯方便调试 R8 优化代码,Fused Library 插件可打包多个 Android 库。

AAAI'26 Oral|为什么具身智能需要 “会交流” 的仿真器?揭秘FreeAskWorld
在具身智能发展当下,清华龚江涛老师实习生彭宇航在AAAI 2026预讲会带来FreeAskWorld,一款基于Unity的具身智能机器人仿真器。研发受三大问题驱动,包括现有VLN Benchmark缺陷、交互数据生成难题及世界模拟能力缺失。其核心设计有三方面,即AIGC驱动的交互数据生成、三层控制器与多要素的世界模拟、低门槛与高效的便捷使用。实验显示交互能提升任务效能,但模型待优化。未来将从人物模型、场景、基准测试、软件版本及智能体研发等方面发展,为具身智能研究提供新工具。

AAAI'26 Oral|告别纯文本报告!Multimodal DeepResearcher 实现多模态图文自动生成,打破沟通壁垒
本文介绍了聚焦多模态报告生成的研究,针对现有Deep Research范式纯文本报告沟通局限问题,提出解决方案。先指出Deep Research虽发展快但多聚焦纯文本,可视化元素缺失影响信息传递。研究借鉴人类报告创建逻辑,攻克多模态生成挑战,提出FDV格式和Multimodal DeepResearcher智能体框架。框架分研究、范例转化、规划、生成四阶段实现端到端生成。实验验证其优势,包括报告整体和图表评估均优于基线,消融实验证明核心模块必要,能生成多样图表。该研究为多模态报告生成注入新活力,有广阔应用前景。

为什么大多数 AI agents 在演示中显得聪明,而在实际工作中却显得愚蠢。
谷歌DeepMind等联合发表论文《Agentic Reasoning for Large Language Models》,解释AI agents演示聪明、实际工作愚蠢的原因。指出当前LLM是被动反应、连续预测token,非主动规划的代理,“思维链停滞”使其在复杂任务表现不佳。提出Agentic Reasoning新范式,是循环式智能行为过程,可将LLM提升为决策者。论文构建三层结构研究和实践,认为“架构>规模”,区分上下文推理和训练后优化两类方法。不过落地存在让代理稳定执行计划等挑战,最终目标是打造有决策能力的AI agent。

AI 终于能帮我按编译按钮了,iOS 开发效率直接起飞
文章围绕 XcodeBuildMCP 展开,指出多数 iOS 开发者用 AI 编程助手时,代码编译需来回切换窗口是痛点。XcodeBuildMCP 作为 MCP 服务,能让 AI 直接操作 xcodebuild,使 AI 从仅帮写代码变为能跑代码。安装有环境要求,最快一行命令搞定,也可手动配置。它与 Cursor 配合最顺,Claude Desktop 适合从零创建 App 场景。还介绍常用场景,如自动修报错等,以及踩过的坑,像真机先配签名、UI 自动化要装 AXe。用它后 AI 辅助开发形成闭环。

多模态文本智能白皮书发布!5大能力标准、11个行业案例全解析(附下载)
2026年1月29日合合信息发布《文本价值觉醒,赋能智能决策——多模态大模型文本智能白皮书(2026)》。企业数字化面临文本理解与价值释放难题,非结构化文档是待激活资产。白皮书提出复杂文本智能五大核心能力标准,包括多模态解析、深度语义理解等能力,构成“文本→数据→知识→决策”价值闭环,并展示其在典型复杂文本场景的应用效果。此外,白皮书通过11个覆盖金融、物流、能源、财务四大领域的行业标杆案例,呈现多行业实践,提供可落地路径参考。扫码可获取85页完整版白皮书。

100k Star,他们给Clawdbot升级了超级记忆
Clawdbot项目突破100k后升级为Moltbot,其记忆升级为超级/动态记忆。原Clawdbot记忆静态需手动维护,此次升级为三层记忆系统,将记忆转为知识图谱。该系统有自动事实提取、基于实体存储、每周综合整理、替代而非删除等特点,分知识图谱、每日笔记、隐性知识三层架构。还具备实时提取和每周综合整理功能,产生复利效应。最后指出Clawdbot依赖工具引用记忆有问题,将其与Supermemory集成,具备全天候自动回忆等功能,还给出安装地址。

不训练,解锁Agentic智能!微软:只需给LLM一台电脑
本文介绍微软等提出的LLM - in - Sandbox新范式,将大模型放入“虚拟机”,使其能像人一样操作电脑,零额外训练解锁“通用代理智能”。评测7个模型在6大领域任务,结果显示越强模型收益越大,小模型可能掉分。还介绍强化学习版让弱模型学会“用电脑”,解析强模型“玩电脑”行为。此外,沙箱在token成本、吞吐与资源方面有优势,能实现纯文本进多媒体出。

Yarn 6 Preview
文章宣布 Yarn 6 Preview 版本,计划将 Yarn 移植到 Rust。近十年发展中 Yarn 性能遇瓶颈,此次移植预计 6 - 8 个月完成,可大幅提高响应性、降低内存占用。测试显示,性能提升显著,如 Next.js 冷缓存从 4.1s 降至 2.5s。新功能有 Yarn Switch 替代 Corepack,可按需下载对应 Yarn 版本;Lazy Installs 为默认模式,检测到不一致会自动安装。版本路线上,先发布 Yarn 5.x 作为过渡,Yarn 6.x 稳定后 5.x 进入 LTS。后续仍有 Windows 支持等工作要做,欢迎社区参与开发。

themackabu
作者在一个月内开发出名为 Ant 的 2MB 小型 JavaScript 运行时。项目始于简单想法,首周学习基础、解决解析难题,采用 NaN 装箱表示值。第二周实现变量、函数等功能,垃圾回收遇阻,后改用 bdwgc 解决内存问题。实现异步/等待功能困难,引入 minicoro 后解决。中间两周处理 JavaScript 边缘情况,通过一致性测试完善。后半段添加文件系统、HTTP 服务器等实用功能。最终 Ant 通过 ES1 - ES5 一致性测试,具备完整功能。发布后进入优化阶段,进行多项优化,提升性能,垃圾回收也得到改进。

JavaScript Frameworks - Heading into 2026
这是2026年关于JavaScript框架展望的文章。回顾2025年,许多想法未达预期,React有崩溃和安全漏洞。AI成主导话题,影响框架发展。介绍几种框架趋势:AI优先框架,如Remix 3重新设计,减少特定领域语言;同构优先框架,延续单页应用技术升级;异步优先框架,React和Svelte在异步处理上发展。还提到AI解决框架复杂度问题,当前是核心优化期,未来趋势将更明确。

推出 AnyLanguageModel:在 Apple 平台统一本地与远程大语言模型的 API
文章介绍了 AnyLanguageModel,它是一个 Swift 包,可统一 Apple 平台本地与远程大语言模型的 API。当前开发者集成大语言模型面临 API 不统一、配置复杂等问题,AnyLanguageModel 以 Foundation Models 框架为基础,通过替换 import 语句降低开发难度,鼓励使用本地开源模型。它支持多种模型提供商,包括 Apple 系统模型、Core ML、MLX 等。使用 Swift 6.1 包特性按需加载避免依赖臃肿,还扩展了图像支持。提供 chat-ui-swift 应用示例供体验。目前版本 pre - 1.0,后续将完善工具调用等特性,为智能代理类应用打基础。

DeepSeek之后:中国开源人工智能生态的架构选择
这是系列博客第二篇,聚焦‘DeepSeek时刻’后中国开源社区进展,讨论架构与硬件选择。呈现趋势包括技术架构多元、多模态能力扩展、开源许可宽松、小模型走红、本土硬件采用加快。MoE成默认选择,可控制成本、灵活分配算力。开源模型向多模态与智能体方向拓展,形成可复用系统能力。小模型更易本地运行,社区使用需求上升。Apache 2.0成默认许可证,降低使用摩擦。模型发布注重与国产硬件适配,国产设备进入训练关键环节,服务与基础设施工程能力也在开源。行业正重构,竞争从模型性能转向系统设计。

Android Studio Otter 3 功能更新: LLM 架构全面升级,重塑智能体开发体验
谷歌宣布 Android Studio Otter 3 功能更新稳定版发布,带来诸多升级。自带模型支持使用任意大语言模型驱动 AI 功能,可接入远程或本地模型,添加 Gemini API 密钥能解锁更多模型。智能体模式改进,可在设备操作应用、审查变更记录、多线程对话管理。“旅程”功能可用自然语言执行用户旅程测试。还支持连接远程 MCP 服务器,提升界面开发效率,集成 App Links Assistant 简化深层链接创建。自动 Logcat 回溯方便调试 R8 优化代码,Fused Library 插件可打包多个 Android 库。

【今晚开播】社区说|从 AI Agent 到具身智能,探索 Gemini 驱动的全自动化研发新范式
2026年1月29日19:00 - 21:00北京GDG社区举办“社区说”活动,探索从AI Agent到具身智能、Gemini驱动的全自动化研发新范式。活动先进行10分钟介绍,后有三场主题分享。王玉成剖析Antigravity框架下AI Agents架构与实践,助开发者掌握构建智能工作流关键;朱涛讲利用Gemini 3 & CLI搭建全天候虚拟研发军团,提升开发效能;张益新聚焦具身智能,拆解Gemini在该领域能力,解决感知决策执行闭环痛点。活动还安排与专家互动环节。

LiteRT | 释放极致潜能,构建下一代高性能端侧 AI
本文介绍 Google 的 LiteRT,它从 TensorFlow Lite 演进而来,是现代化端侧 AI 框架。其先进加速能力已并入生产级技术栈,优势显著:更快,GPU 性能比 TFLite 快 1.4 倍,新增 NPU 加速;更简单,提供统一工作流程;更强大,支持热门开放模型;更灵活,支持 PyTorch/JAX。它还提供跨平台 GPU 加速、简化 NPU 集成、卓越跨平台 GenAI 支持、广泛机器学习框架支持,且可靠性和兼容性强。开发者可通过相关文档、GitHub 和应用上手,欢迎反馈。

AAAI 上新 | 从金融模拟到类人推理,聚焦大模型的能力边界
第40届AAAI人工智能会议在新加坡举行,微软亚洲研究院有多篇论文入选,涵盖多领域。DigMA框架解决金融市场模拟可控难题;HiTVideo层级标记器增强大语言模型文本到视频生成能力;分析对齐前后模型多语能力演化;HTSIR框架提升长上下文摘要能力;IROTE框架引导大模型展现类人特质;MoHoBench评估多模态大模型诚实性;基于熵的方法鼓励大模型探索性推理。

LLM2CLIP:以大语言模型重塑跨模态表征学习的文本基石
本文围绕跨模态表征学习展开,指出文本监督质量决定跨模态表征空间上限。微软亚洲研究院在AAAI 2026提出的LLM2CLIP获杰出论文奖。CLIP虽构建了跨模态语义空间,但存在文本能力滞后问题,如上下文窗口窄、编码器容量有限、先验利用效率低。LLM2CLIP设计两阶段训练策略,先对LLMs进行caption - to - caption对比学习微调,再将其与CLIP视觉编码器跨模态对齐,降低训练开销。少量数据就能让其性能超越原始模型,在多语言能力上有大幅提升。此外,它还驱动视觉编码器进化,解决了CLIP文本建模短板,增强了CLIP系列模型。

Unity 中国资源商店推荐系列 | Volumetric Light Beam-光影魔法书
本文介绍了 Unity 中国资源商店上架的 Volumetric Light Beam 资源包。该资源包在国际资源商店口碑极佳,其光影效果获多款商业游戏认可。它为用户带来简单高效的体积光解决方案,无需复杂设置、对硬件要求低。核心功能亮点包括:渲染能力强,支持体积阴影等,零配置、全平台兼容;极致性能优化,GPU 实例化等提升效率,移动端也高效;有先进技术特性,如动态 3D 噪声等;具备动态与交互性,属性可运行时修改。使用方式简单,参数化控制系统方便艺术调校,能为各类项目带来质的飞跃。

团结 AssetBundle 新功能深度解析 Ⅱ:多进程并行构建提升
文章围绕 Unity AssetBundle 多进程并行构建提升展开。在游戏开发中,传统 AssetBundle 单线程构建耗时久,制约开发效率。多进程并行构建可利用多核处理器,主进程拉起多个 Build Worker 进程分发任务,兼容现有 API,添加额外标志即可启用,还配套 Profiler 检视构建过程。使用时,平台需 Windows Editor,团结引擎 1.8.0 以上,可配置 Build Worker 数量。测试显示,开启该功能后构建用时从约 4604s 降至约 1041s。未来将推出多台设备分布式并行构建,完善 CI/CD 支持等内容,持续优化资产管理体验。

CIO 必读:2026年技术规划的三大战略转向
市场变化促使CIO调整技术战略。2026年经济波动和预算压力改变企业衡量成功的方式,IT预算小幅增长、技术团队扩张受限,提升内部生产力成CIO紧迫任务。即便预算紧缩,全球CIO和技术高管仍逆势加大AI投入,尤其是代理型AI,因其有技术创新和高投资回报潜力。基于2500位CIO的洞察,Gartner总结出2026年技术规划的三大关键转向:从防御性AI试点转向代理型AI扩展,从地理中立采购转向地缘战略对齐采购,从周期性规划转向动态触发式决策。

在中国成功扩展生成式AI软件的两大举措
中国IT支出预计2025年增长9.9%,生成式AI采用激增。但生成式AI依赖机器学习和数据,输出具概率性,传统项目管理方式会使AI计划面临回报递减等问题。软件工程领导者应将其作为动态产品管理,任命专门产品负责人。在构建阶段,要推动企业在文化等方面转型,支持以产品为中心的交付模式。产品负责人需具备核心产品管理、AI/ML概念理解和技术流畅度等能力,可降低AI项目风险,聚焦战略价值。
