
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍构建“自我编程”的Coding驱动型Agent的方法。在ReAct架构基础上优化,用“Code+泛化调用”提升灵活性和效率,采用混合部署方案选最优模型。其核心是用“代码即指令”代替JSON调用。Agent工程分感知、认知等区,各有职责。上下文和Prompt体系是决策核心,通过Segment机制管理。记忆系统分感知、短期、长期记忆,解决了上下文窗口的局限。代码驱动部分实现了代码生成到执行的闭环,包括Python引擎、桥接等。Toolkit体系有四类工具包,采用两种注册机制。最后反思开发要点,提出未来优化路径,目标是打造“1.5线”答疑助手。

AI 辅助前端动画开发
文章围绕AI辅助前端动画开发展开,指出传统动画开发存在参数难获取、沟通成本高、反复返工等问题。作者以AE为动效源头,构建MCP工具链 + Cursor AI IDE协作工作流,采用“L3级自动驾驶”模式,即AI生成关键步骤,开发者可随时介入。介绍了提示词设计、关键物料,如pixelator设计稿链接、动效标注文件链接、动画视频等。还给出动画研发标准流程、互动微动画研发流程示例,展示仅用动画视频也能生成动画组件。最后强调该方式灵活性好,符合当前AI发展特点,团队也在探索以AI为底座的端到端自动化与产品化能力。

用代码染色实现精准无效代码清理
文章介绍基于代码执行染色和覆盖分析的代码下线方案。因应用D历史代码多且清理难,需工具辅助。先讲代码覆盖率采集,有JVM Agent概述及agent和attach方式,还对比自研插桩与JaCoCo工具、agent与attach、在线与离线插桩。选agent+JaCoCo做长期稳定采集。接着说落地方案,包括整体设计、代码采集(考虑热部署,改造docker file和配置jvm参数并定时dump数据)、数据合并(用jGit、maven编译、JaCoCo生成报告)、插件设计(实现开闭展示、数据下载、配置、缓存等功能)。最后展示治理效果,B、R、D应用清理明显,还分享收获与反思,此方案可迁移到其他业务。

Hybrid Model Support:阿里云 Tair 联合 SGLang对 Mamba-Transformer 等混合架构模型的支持方案
文章围绕阿里云 Tair KVCache 团队与 SGLang 社区支持混合架构模型的工程化实践展开。在大模型发展中,传统 Transformer 与 Mamba 各有优劣,混合架构应运而生但面临系统挑战。SGLang 首创双内存池,兼容两者内存习性。技术方案上,用状态快照解决 Mamba 缺陷,让缓存复用和推测解码可行。内存管理采用双池与弹性内存池设计,提升利用率。关键技术优化包括前缀缓存、推测解码适配和 PD 分离架构扩展。性能验证显示其有效性,未来将在缓存通用性、HiCache 整合和比特级确定性推理适配方面持续推进。

从CLI原理出发,如何做好AI Coding
文章围绕从CLI原理出发做好AI Coding展开。先介绍CLI产品美学,其遵循Unix哲学,如一切皆文件、实用主义、可组合可集成,不止用于代码编写。接着阐述技术原理,以iFlow CLI为例,采用Single Agent架构,靠极致上下文工程保持高效,因Multi Agent通讯难、灵活性差未采用。最后给出用好CLI写代码的建议:正确认识AI,选好指令遵循模型;学习有效的Prompt工程;理解AI局限,合理划分任务边界;探索多智能体协作,用Spec沉淀经验;接受风格差异,持续实践;促进AI与团队对齐;建立优化闭环。

基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台
文章聚焦构建稳定高性能推理系统,阐述基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台。大模型推理架构向分布式演进,KVCache 外置成关键,Mooncake 是分布式 KVCache 存储引擎,但管理面临部署运维复杂、升级不稳定问题。RoleBasedGroup(RBG)应运而生,通过多角色协同编排解决难题。基于 RBG 可部署 SGLang PD 分离推理系统,含 Router、Prefill、Decode、Mooncake 等角色。Benchmark 测试显示多级缓存加速显著。此外,结合 Mooncake 缓存本地持久化与 RBG 原地升级,可实现版本平滑升级,保障服务稳定性与高可用性。

从一条慢SQL说起:交易订单表如何做索引优化
文章从淘天电商交易订单表的慢 SQL 切入,介绍索引优化方法。先剖析一条非典型慢 SQL,发现是 filesort 排序导致问题,尝试去掉 order_id 排序未成功。接着回顾索引知识,涵盖索引分类、B+Tree 与 B‑Tree 结构差异、B+Tree 高度估算、诊断工具使用及索引下推与排序执行流程。然后提出适用于大规模线上集群的索引变更 SOP,包括分析慢 SQL、查询 SQL 构成、确认索引字段顺序、提交工单、线上灰度、压测验证和全量验证。最后总结常见慢 SQL 成因及解决策略,如区分度大的字段无索引、索引选择错误等,需合理设计索引、调整查询方式等。

告别数据库“膨胀”:Dify x SLS 构建高可用生产级 AI 架构
文章围绕 Dify 数据库性能瓶颈,提出用阿里云日志服务(SLS)解决问题。Dify 在高负载下,因依赖 PostgreSQL 存储运行日志,出现连接池打满、慢查询等问题。SLS 适合 Dify 日志场景,具有极致弹性、高写入吞吐、低成本长期留存和数据价值释放能力。工程实施分 Dify 核心插件化改造和 SLS 日志插件实现两部分。迁移到 SLS 后,DB 压力显著下降、存储成本大幅降低,还能释放数据价值,实现从“运维监控”到“业务洞察”的跃升,是 Dify 向生产级高可用架构演进的关键。

从工单、文档到结构化知识库:一套可复用的 Agent 知识采集方案
本文介绍一套可复用的 Agent 知识采集方案。先指出传统构建 Agent 知识库的方法有缺陷,存在知识收集难、RAG 召回质量差、维护成本高的痛点。该方案构建了全链路自动化 pipeline,封装为 Python 包和工作流,有全自动化和半自动化两种模式。它能解决收集、提质与维护难题,实现知识泛化,提升召回率。还分享实践经验,如工具开发占比大、工具缺失是瓶颈等,提出工具开发要通用化、共建生态。此外,介绍了方案的拓展应用,包括简单应用拓展和复杂任务扩展,最后总结方案解决了知识库建设顽疾,降低使用门槛。

从AI钉钉1.1开始,打开全新工作方式
2025年12月23日,钉钉发布全球首个为AI打造的工作智能操作系统Agent OS,开启“人与AI协同”全新工作方式。其核心是运行和协同AI Agent,通过钉钉ONE、DingTalk Real等产品矩阵构建完整系统架构。企业Agent专属AI硬件DingTalk Real解决AI Agent执行任务难题。钉钉还发布一批商业可交付Agent,如制造业“订单Agent”等。全新AI钉钉1.1版本中,AI搜问、AI表格等产品升级,“AI搜问”成企业级搜索引擎,AI表格成应用创建平台,DingTalk A1成团队工作助理,“AI听记”新增多项能力。

你来品品,这样的设计师能不能转正?
文章围绕堆友海报Agent这一AI设计师展开。先提出能否转正问题吸引关注。介绍其入职堆友,有试用福利,限时免单3次。堆友海报Agent优势明显,排版专业,通过交互对话提炼需求转化为设计语言,高效交付作品;文字效果好,解决乱码问题;批注修改自由,可随意修改文字、位置、样式等;版权有护航,与权威平台合作提供商用版权。此外还提供多行业海报模板,助力轻松创作。最后鼓励大家参与评论,点赞前5送周边。

起猛了,看到「素材AI总监」自己干活了
文章介绍了淘工厂推出的Spark素材AI总监。商品主图及素材对平台和商家很重要,但设计存在经费高、商家认知参差不齐等问题。该AI总监成长初期有三大目标:智商在线,掌握高点击密码;美商在线,不产差图;7*24在线,覆盖海量商品。它通过调研挖掘品类故事,明确用户痛点,如食品生鲜、宠玩文具等行业,兼顾不同用户视角。在审美上从色调提取、商品与背景搭配发力。产技、算法团队将设计沉淀到AI知识库,商家后台可自动制图、采纳算法制图或多图PK,助力商家抵达主图设计“最后一公里”。

NeurIPS'25 | AI的“精打细算”之道:AgentTTS如何用智能体优化计算预算?
本文聚焦多阶段任务的测试时计算最优缩放问题。测试时缩放可提升LLM性能,但现有研究多针对单阶段任务,未考虑多阶段任务的异构性与相互依赖性。研究目标是在固定预算下为多阶段任务各子任务选合适模型、分配预算以最大化性能。该问题存在组合爆炸和子任务依赖挑战。通过预备实验得出子任务有特定模型偏好、存在最优预算点、子任务间相互影响三大发现。基于此提出AgentTTS框架,与环境迭代交互搜索最优配置。实验表明,其在搜索效率、最终性能和鲁棒性上超越传统及现有LLM基方法,为多阶段任务计算资源分配提供有效方案。

ML Kit Prompt API|赋能设备端 Gemini Nano,打造专属定制体验
文章介绍谷歌推出 ML Kit GenAI Prompt API 的 Alpha 版本,可向 Gemini Nano 发送自然语言和多模态请求,满足构建生成式模型时对可控性和灵活性的需求。Kakao 等合作伙伴已用其打造实际体验,用户少量代码就能体验。该 API 突破预构建功能局限,支持自定义 GenAI 用例,使用设备端 Gemini Nano 处理数据,强化隐私保护。还列举了其主要用例,如图像理解、智能文档扫描等,并给出实现代码示例。此外,提到 Prompt API 在 Pixel 10 系列表现最佳,同源架构方便开发者构建原型,无该设备也可用 Gemma 3n 原型设计。最后鼓励开发者查阅文档和示例集成该 API。

Midscene v1.0 发布 - 视觉驱动,UI 自动化体验跃迁
本文宣布 Midscene v1.0 发布。自 2024 年开源,Midscene 已获佳绩并在多场景落地。文中回顾了 Midscene 在多场景的任务案例,如社区开发者用其完成车机测试、移动端外卖下单等。1.0 版本全面转向视觉理解方案,有效果稳定、适用于任意系统等特点,还支持多模型组合。运行时架构、回放报告、MCP 架构等方面均有优化,移动端能力增强,API 有变更,最后给出升级到最新版的方法。

TRAE 1.0.0|2025 年度产品报告
本文是 TRAE 1.0.0 的 2025 年度产品报告。这一年 AI Coding 行业发展快,TRAE 从 0 到 1 成长,累计全球用户超 600 万。其 Agent 算法迭代,评测分数提升;产品形态丰富,覆盖 IDE 与插件,推出 SOLO 模式,企业版优化刚需;功能持续更新,响应快、稳定性升、内存优。还产出多篇学术论文,开源项目获关注。为开发者提升生产力,用户粘性增强,社区活动丰富。未来 TRAE 将打磨产品,探索更多场景。

APMPlus:重新定义 AI 时代的全景全栈观测
本文介绍火山引擎AI应用监控产品。当前AI应用带来运维挑战,如智能应用不可预测、多层架构有可见性盲区、运维成本指数级增长。火山引擎推出的该产品可聚焦破解AI应用“黑盒”难题,提供全链路监控,整合多类数据,实现一体化监控。通过两个客户案例说明其价值:一是诊断优化Agent应用性能,快速定位推理引擎内存分配问题并解决;二是实现Token消耗监控和成本优化,降低整体Token消耗成本。未来,团队将从构建AI理解能力、打造智能排障流程、推动开放生态建设三个方向持续进化。

“大晓机器人”携手火山引擎多模态数据湖探索千万小时级视频处理新路径
本文介绍“大晓机器人”与火山引擎合作探索千万小时级视频处理新路径。“大晓机器人”作为具身超级大脑,转化前沿技术为可复用方案,与火山引擎结合开悟世界模型3.0解决传统处理模式问题。面对海量视频数据,传统处理流程难以为继,文章分享利用LAS AI数据湖搭建分布式视频处理Pipeline。详细阐述视频分镜、滤波、理解与Caption生成等步骤,还介绍Daft的Pipeline流式调度、GPU任务的Checkpoint,以及Daft优化实践,包括CPU使用、ZeroCopy、增大吞吐和分布式加速等,最终实现CPU和GPU资源利用率显著提升,为多领域带来视频处理通用基础设施解决方案。

保姆级操作指南|如何在火山方舟上构建下一代 Agent 应用?
本文围绕在火山方舟构建下一代 Agent 应用展开。在 2025 冬季 FORCE 原动力大会开发者专场,探讨了如何构建更好用的 AI 应用。火山方舟通过三大核心产品助力构建 Agent。Responses API 有原生上下文管理和自主选择调用工具能力,已助力电商、教育企业落地应用。体验中心上线「开发者模式」,低门槛、链路透明、有原生记忆。veRL 活跃且特点多,在此基础上,Serverless RL 平台为企业提供低门槛强化学习体验。Viking 构建“企业知识大脑”和提供“长期工作记忆”,与企业合作推动具身智能发展。此外,火山方舟升级“协作奖励计划”,降低使用门槛。

AI 时代的“无限”记忆:火山引擎 TOS Vectors 开启向量存储新范式
文章介绍火山引擎 TOS Vectors 开启向量存储新范式。先说明传统信息检索依赖关键词匹配有局限,向量可实现语义理解,但传统数据库处理海量向量成本高。接着指出传统向量数据库架构困境与商业挑战,云原生向量数据库带来机遇。TOS Vector Bucket 架构设计解决传统痛点,采用去中心化存算分离和云原生索引算法等关键技术。还提到其多租户隔离保障数据安全,性能测试优于 S3 Vector Bucket。应用场景包括与火山体系多产品结合,实现数据迁移、分层检索等。最后总结其核心优势,未来规划为深度绑定火山体系、增强混合搜索、完善生态体系。

云数据库 MySQL 2025 运维革新:大版本升级无忧+蓝绿零停机+存储自动扩容全覆盖
随着数字化转型,企业数据库运维痛点凸显,如大版本升级风险高、版本切换/扩容需停机、本地盘扩容受限。火山引擎云数据库 MySQL 版推出三大核心运维能力:大版本升级提供全链路保障,含预检查、灰度测试、观测回滚,实现一键无忧升级;蓝绿部署通过 1:1 实例复刻、数据同步、分步骤流量切换,近乎零停机;自动扩容支持云盘和本地盘,可自助配置规则,双维度检测,保障高成功率且无感知扩容。这些能力重构运维体验,让 DBA 聚焦核心业务。

被 Gemini 官方推荐为下一代Agent!Eigent 如何实现企业级浏览器自动化?
本文介绍被Gemini官方推荐的开源项目Eigent实现企业级浏览器自动化的方法。它是本地运行的多智能体工作系统,集成Gemini 3 Pro,有“零配置”和开发者环境搭建两种运行方式。其采用全栈架构,前端基于React等构建,后端由FastAPI等服务承担,核心是CAMEL Workforce多智能体系统。浏览器自动化采用双层架构,解耦浏览器控制与AI编排。通过真实企业任务测试,Gemini 3 Pro展现出处理复杂页面、自我校验、高效用工具等优势,靠Thought Signatures机制解决上下文漂移问题,鲁棒性强。未来将识别失败模式、建基准测试集、构建强化学习环境。

Flutter UI 设计库解耦重构进度,官方解答未来如何适配
文章介绍 Flutter UI 设计库解耦重构计划。目前 Material 和 Cupertino 库与核心框架捆绑,导致耦合紧密。因新 UI 风格适配成本高、框架更新难适应,官方启动 decoupling design 计划。重构涉及 System UI、代码组织、主题、基础设施适配四个领域,分三个阶段:2025 年 12 月做基础调整;2026 年正式解耦并弃用旧库;2026 年晚些时候移除旧库。对开发者而言,有版本管理灵活、易构建自定义设计等好处,也有破坏性变更、设计库更新暂停问题。对 Plugin 开发者适配成本更高。长远看,重构使框架更耐用,设计库迭代更快,还引出 Compose Multiplatform 是否跟进的问题。

H-Neurons:大语言模型中幻觉相关神经元的存在、作用及其起源
大语言模型幻觉问题制约实际应用,此前宏观手段多将模型视为黑盒。清华大学等团队从微观神经元视角研究,论文有诸多贡献。在定位上,引入 CETT 指标,构建稀疏预测模型,找到不足 0.1% 却能区分幻觉与非幻觉的 H - Neurons。本质方面,通过扰动实验发现 H - Neurons 提升模型顺从性,幻觉是过度顺从表现。溯源显示 H - Neurons 源于预训练,非后训练产物。该研究为理解与缓解幻觉提供新思路,如检测方法、干预路径,还提示要重新审视预训练设计。

突然,被GLM-4.7的Coding交付能力惊到了
本文介绍GLM - 4.7强大的Coding交付能力。GLM系列持续发力,本月开源旗舰GLM - 4.7,它从代码大模型转变为任务交付引擎,实现从需求到成品的端到端闭环。作者实测多项任务,如分析NeurIPS 2025会议近6000篇文章的csv文件,GLM - 4.7自动拆解任务、稳健分析、生成视觉效果出色的html文件;还能给出交互式论文探索与分析网页完整技术方案;面对遗留代码重构难题,精准识别核心模块,拆分优化代码并补上测试示例和说明文档。它是专业编程外脑,“GLM Coding Plan”支持其使用。

越发觉得,Adaptation 才是 Agentic AI 的出路~
本文围绕智能体 AI(Agentic AI)展开,指出大模型爆发后其成为新战场,但原生 LLM 不会“动手”,且存在工具使用、场景适应性和长程任务处理等问题。解法是适应(Adaptation),并介绍 4 大适应范式:A1/A2 改智能体,T1/T2 改工具。回顾关键论文,从 2023Q1 的 Toolformer 到 2025Q4 本文综述。详细阐述各范式数学形式、经典案例,对比选型维度。作者给出选型建议,最后介绍应用场景,强调让大模型“越用越顺手”是终极战场。

Agentic UI:重新定义“好体验”——不是美化按钮,而是让认知负担归零
文章指出在 Agent 从“辅助者”变为“执行者”的时代,前端架构需重新定义。传统 UI 以“人是执行主体”为假设,已成为释放 Agent 执行能力的障碍,存在导航税与认知负担问题。在 Agentic 时代,UI 应完成范式转移,成为数字员工的执行工作台,具备任务、上下文、动作、观察四个核心要素。构建 Agentic Frontend 可借助 DSL、A2UI 或 GenUI 等技术,迁移采用渐进式演进策略。文中还介绍了试验中的 NanoDSL 及 DSL + 校验机制,强调系统要为 AI 的理解、修改与验证而生,Agentic Frontend 是全新系统观。

VLM能否看清「分子世界」?人大联合清华、达摩院等机构发布首个微观空间智能基准MiSI-Bench
文章介绍人大联合多机构发布的首个微观空间智能基准MiSI - Bench。微观空间智能(MiSI)指感知和推理微观实体空间关系的能力,其面临不可见性、物理约束和专业门槛挑战。MiSI - Bench基于PDBbind构建九项任务,含基础单元和复合推理任务,还设计三阶段数据生产流程。团队采用公平的数据划分方案和阶梯式评估。实验显示,人类在复杂任务有局限;主流VLM处理微观空间关系有短板;SFT模型经微调表现提升,特定任务超人类,但在依赖领域知识任务仍落后。MiSI - Bench揭示VLM潜力与瓶颈,实现科学通用AI需整合专业先验知识。

利用AI制作史前电子游戏,在DIY考古视频游戏之中的具身大模型
当下博物馆用投影、AI 展示文化遗产,但制作沉浸式数字内容成本高、更新难。美国哥本哈根大学与卑尔根大学考古学家用人工智能和免费工具创教育意义的 3D 游戏,研究成果发表于《Advances in Archaeological Practice》。考古学存在证据与过程数量不匹配问题,现代人难想象古人生活方式。该团队提出「DIY 考古游戏」模式,结合沉浸式环境与 LLM 驱动的 NPC,让初学者用免费工具快速制作。制作流程包括扫描遗址文物、搭建场景、设置 NPC 等。在《Dolmen Game》案例中测试不同人群,角色对话来自 AI 可实时更新。新技术推动历史知识传授游戏发展,团队期待作品适配教学场景,为考古界带来新思路,建议相关人员参与新传播空间定义。

OxyGent 多智能体协作框架新版本发布
近日,OxyGent多智能体协作框架发布新版本,支持多模态信息传递等新特性,可通过pip install oxygent==1.0.8升级。该框架开源3个月收获1700多个Star,已在京东内外多业务场景应用。它将Agent等统一抽象为Oxy,开发者能灵活构建多智能体系统,有执行生命周期和四大数据作用域。在京东内应用于SOP、RAG问答等场景,社区开发者反馈其在多场景可用。文章还提供快速上手教程,解决了社区常见问题,举办大赛涌现优秀案例,最后致谢开发者。

数据库主从同步高延迟破局实践之路
随着业务量增长,京东物流数据库主从同步延迟问题凸显,个别实例延迟超30分钟。经分析,主从延迟集中在每日05:00 - 07:00,系库存快照自动生成任务产生大量binlog数据,导致同步数据量大、负载高。这不仅影响从库报表查询和大数据抽数,还使磁盘利用率居高不下。文章提出5种解决方案,最终采用方案5,即通过大数据抽取实现库存快照留存。治理工作分8步实施,落地后主从延迟问题解决,SQL管理软件生产库磁盘利用率降至60%以下。

ACL 2025 | 一种用于电子商务 query 意图分类的半监督可扩展统一框架
本文入选 ACL 2025,聚焦电商 query 意图分类。电商 query 意图预测对电商应用重要,但存在先验信息不足、陷入马太循环、子任务缺乏统一框架等问题。为此提出半监督可扩展统一框架(SSUF),含知识、标签、结构增强模块及统一框架。知识增强模块用世界知识和后验知识增强查询表示;标签增强模块引入 label 文本,用先验半监督标签打破后验依赖;结构增强模块构建标签关系图,缓解长尾标签训练难题;统一框架支持多任务联合训练。离线和在线 A/B 实验表明,SSUF 性能优于业界先进模型,各模块对 query 分类不可或缺。

15年评价中台如何涅槃?超百亿数据×千万QPM×百万行代码的重构全景复盘
文章复盘15年评价中台重构。中台因代码复杂、缺乏扩展性等问题无法满足业务需求。团队采用“上下皆动”重构范式,用DDD领域驱动设计进行战略设计,包括归纳场景用例、划分问题空间等。战术设计构建云梯应用架构和新存储架构。重构面临数据和业务逻辑一致性等挑战,通过大数据处理、监听Binlog等方案解决。组织上明确分工、规范流程、关怀成员。总结五“要”原则,重构后需求吞吐量产能提升,代码量降低,双11运行平稳。

成为B端付费用户后,我搞懂甲方为何只提功能需求了!并不是对设计没追求…
文章围绕B端客户只提功能需求展开。一位UI设计师想转UX但在乙方公司只能接到功能需求,不知客户是否有设计追求及如何整理作品集。作者成为B端付费用户后理解了客户,认为他们虽没提设计需求不代表没追求。作者作为用户体验设计师面对研发团队也少提设计需求,原因有三:先保证功能,再考虑其他;操作麻烦但改造成本高;领导不操作产品,反馈多关注功能。B端设计师可通过用户访谈了解真实使用场景挖掘设计需求,若没机会接触客户,可问客户经理等。还提到可参加作品集训练营提升作品集质量。

大厂都把吸底弹窗的关闭按钮放哪里?我发现一个规律
文章围绕大厂吸底弹窗关闭按钮位置展开,先介绍吸底弹窗不同叫法,指出其关闭按钮有6种样式。接着分析3个设计系统:iOS 26无确定按钮时关闭按钮在右上,有则在左上;Material Design 3走极简风,内容多顶部加滑动条;TDesign动作面板取消按钮在底部,底部弹出层无确切规范。又列举工具类、娱乐类共6家大厂app,发现大多未严格遵循单一规范。国内吸底弹窗关闭按钮常见于右上,吸底菜单则多在底部。虽位置多变不影响使用,但为方便用户和研发,应避免混乱。作者下次直播将分享适合设计师的竞品调研方法。

从失败中重生:一个 AI Agent 前端落地的真实复盘
本文是一个 AI Agent 前端落地案例复盘。2025 年被称为 Agent 元年,朋友团队面临企业痛点,目标是做类似 Lovable 工具,用自有 Design System 让 Agent 生成前端代码。但搭建系统挑战大,作者建议先跑通再优化,并协助解决诸多技术难题,Agent 上线后却少人用。复盘发现问题在产品逻辑与用户习惯错位,如习惯阻力、80/20 瓶颈、流程割裂等。团队转变思维,提出新设计原则,破局点是将能力嵌入现有 AI 开发环境成 Skill。案例还引出几点思考,如技术成功不等于产品成功等,鼓励在 AI 时代勇于实践。

本年度最值得收藏的提示词:生成高质感、可随意修改的完美 PPT
本文是宝玉分享的生成高质感、可随意修改的完美 PPT 的方法。NotebookLM 生成的幻灯片是死图无法修改,作者提供了工作流和提示词模板。先将“内容生成”与“视觉绘制”分离,准备“大脑”,可通过获取 Gemini Gem 或使用原始 Prompt;接着投喂素材定制大纲,可修改不满意的文字;然后用画图工具按步骤绘制幻灯片;最后可对生成图片进行像素级微调。该方法虽多两步,但定制自由度高。

基于微前端 qiankun 多实例保活的工程实践
文章围绕微前端 qiankun 多实例保活展开。先介绍中后台业务场景痛点,引出实现多实例保活需求。接着阐述 qiankun 沙箱机制,包括为何需要沙箱、ProxySandbox 原理及沙箱生命周期。分析多实例保活技术难点,如应用实例保活与激活、多沙箱隔离。运行时子应用切换丢失状态,原因是 React Router 匹配失败、非激活子应用响应路由变化、沙箱逃逸。解决方案是 patch React Router History,增加路由匹配判断,还可在 beforeLoad 钩子提前 patch 全局监听器。最后总结实现思路,指出手动 patch 成本高,提及生产环境需关注的工程化问题及其他可行方案。

Seed Prover 1.5:全新 Agentic 架构,更强数学推理表现
文章介绍字节跳动新一代形式化数学推理专用模型 Seed Prover 1.5。今年 7 月,旧版模型获 IMO 2025 银牌。新版通过大规模 Agentic RL 训练,推理能力和效率显著进步,在 IMO 2025、Putnam 等赛事评估集上表现出色,刷新 SOTA 表现。其提出全新 Agentic Prover 架构,平衡两种证明方式优缺点,可自主调用工具,还得益于大规模 Agentic RL 提升效率。同时训练 Sketch Model 解决复杂定理证明,构建多智能体协作系统。未来需解决文献发现、基于文献推理、规模形式化三大挑战,助力 AI 攻克开放数学猜想。

火山引擎发布《AI时代企业数据基建升级路线图》
2025年12月22日,火山引擎在FORCE大会“Data+AI”论坛发布《AI时代企业数据基建升级路线图》。数据基建是企业驾驭AI、释放模型价值的前提,该路线图为企业提供从“传统计算”到“驾驭智能”的演进指南。以“赋能模型”为核心的数据基建,要支撑多模态数据处理与业务迭代。升级路线分三阶段:异构算力引入与分布式引擎扩展阶段,异构化重构算力架构,双轨并行化解算力矛盾;“模型即引擎”与多模态数据重构阶段,数据计算向“模型语义”驱动转移,构建多模态数据处理能力;全域数据资产治理与平台融合阶段,转向“平台化治理”与“架构融合”,构建非结构化数据管理体系。

AI 驱动数据范式变革:字节跳动数据库的智能进化之路
AI 技术推动数据消费主体变革,催生对在线“多模态数据交互枢纽”需求,数据库是关键载体。字节跳动提炼出数据库四大核心趋势,包括完备 AI 生态与工具适配、多产品协同 + 向量原生支持、AI 原生集成、智能数据管理平台。字节重构 AI 时代数据库产品体系,如 ContextSearch 实现全链路搜索,Mem0 是企业级记忆库,还有云搜索服务等产品。此外,有 Supabase 一站式服务和 DBCopilot 数据库助手。其智能进化以易用性、高效率、低成本为核心诉求,破解数据管理困境。

TRAE 2025 年度产品报告
2025年AI Coding行业发展迅速,TRAE在这一年从0到1摸索前行。1月和3月,其国际版与中国版分别发布,年底全球累计用户超600万。TRAE Agent算法迭代,在评测集分数提升;产品形态丰富,覆盖IDE与插件,有SOLO模式,还发布企业版。功能持续更新,优化响应速度、稳定性和内存占用。学术上发表多篇论文,开源项目获关注。它提升了开发者生产力,用户使用粘性增强,编码辅助优化,AI赋能开发新范式。此外,还通过线上线下活动进行社区共建。未来,TRAE将打好基础、探索场景,与开发者同行。

小红书混合云架构下自用数据中心设计实践与探索
小红书首座自用数据中心获国内外两项行业大奖,文章梳理其实践历程。随生成式AI发展,小红书算力需求呈多元化,自建基础设施势在必行,构建“自建+公有云”混合架构。选址注重云上云下协同与业务连续性。服务器分三类并资源池化,网络采用多级交换架构。智算中心设计集中化、预制化,支持风冷液冷混用。智慧运维体系含自动化分级、统一监控分析与能效优化。电力侧探索包括提高绿电占比、关注储能与算电协同,分享实践供同行参考。

大模型在得物社区搜索的落地实践
本文介绍得物将大模型应用于社区搜索的实践。得物“商品+内容”生态对搜索要求高,传统模型难满足。从四维度剖析实践经验:一是社区搜索,架构分主搜与增长板块,有独特挑战,设评价指标与算法链路;二是重构相关性,构建标准体系,大模型突破传统困境,革新推理范式,落地后提升效率,未来优化排序能力;三是 Query 生成,打破信息茧房,基于用户行为推导兴趣,在搜索与推荐场景落地,还有内容提炼与词生成;四是多模态表征,选基座、建数据飞轮,验证数据规模作用,应用提升体验。大模型重塑搜索体验,未来将深化应用。

Banana Pro AI 出图,可以这么玩
Google发布Nano Banana Pro AI图像生成与编辑模型,有完美文字渲染等特性,能用于企业生产。对打工人其价值在信息可视化。文章探讨其办公应用场景,如生成文章摘要、科研绘图、PPT、海报、信息图、知识卡片等;介绍写稳定绘图提示词方法,要表达意图、设定角色、指定视觉风格、参考图;还对比它与可视化库AntV/infographic,指出前者适合追求视觉效果场景,后者适合精准可控场景,可结合使用。

2025 年底,简聊 AI Coding 的演进
本文回顾 2024 - 2025 年 AI 行业演进,2024 年从“聊天对话”到“智能副驾”,2025 年加速向“智能体”转变。Coding Agent 改变编码习惯,形成“人 - 智能体 - 项目”关系,要求需求与项目信息清晰、智能体能力强。当前企业级软件开发多采用“迭代对话协作模式”,开发者需掌握多技能保证代码质量。未来将朝“规划驱动模式”发展,弱化人的参与,Coding Agent 可根据需求和项目信息完成产品落地。

2025年的游戏行业,急死人了
2025年游戏行业呈现“急”的态势,厂商砍掉跟不上时代的项目,玩家耐心和注意力减少。多数团队陷入存量竞争,而鸿蒙生态带来新机遇。鲸鸿动能作为基于鸿蒙生态的营销平台,为厂商构建“开源 +节流 + 提效”变现链路,解决商业变现痛点,如升级SDK提升游戏变现收益。华为小游戏、IAA买变一体能力、鸿蒙元服务等也为游戏及其他行业提供增长机会。在流量见顶背景下,鸿蒙生态有望打破僵局,其高品质商业化思路值得厂商深思。

刚刚登上畅销榜Top 1,网易2025最大爆款打破了行业纪录
2025年12月27日,更新一周年庆版本「饮马渡秋水」后,《燕云十六声》登顶iOS国区游戏畅销榜,刷新上线以来最高榜单纪录。该游戏为跨端游戏,PC端玩家占比不低,此次登顶可能只是其周年庆总收入表现的一部分。周年庆版本更新了开放世界新区域、活动玩法等内容,还推出大量福利活动、上架周年限定服饰。《燕云》采用「内容型游戏+纯外观付费、无p2w」模式,上线一年才迎来「巅峰」,证明此模式可行,其逆生长成绩也体现玩家对内容创作的认可。此外,该游戏海外刚启程,被丁磊点名,未来发展值得期待。

8000 万美元 ARR 背后:一个 AI 设计 Agent 的真实能力
本文介绍AI设计产品Lovart,它5个月获1000万用户、8000万美元ARR。作者因优惠活动成付费用户,会员用Nano Banana Pro免费。其有多种强大功能:Design可协调一致性交付完整方案;Text Edit能精准修改图片文字;Touch Edit可指哪改哪;Edit Elements能拆分元素让图片可编辑;Mockup将设计一键变成真实效果图;PPT功能可生成并编辑PPT。这些功能让AI设计更可控,Lovart脱离传统套壳产品,能在真实场景替代传统设计工具,现圣诞活动4折,可体验完整流程。

绝了!好看视频AI量产艺术字标 + 爆款封面
本文复盘好看视频落地AI视觉生产力的实战路径。在AI艺术字标设计上,用「AI + RPA 工具」三天完成278个大卡字标生产,采用“AI三步走方法论”应对痛点,沉淀不同题材提示词模板。AI封面设计方面,针对“图不对文”问题,提炼“人物夸张表情+动作抓眼球,大字标题强冲突,高饱和撞色造张力”公式,沉淀两种Prompt公式及爆款封面模板库。最后,为实现规模化产出,搭建ComfyUI自动产工作流,也可用影刀RPA搭建半自动化流程。AI正从“效率工具”进化为“创意共生体”。

MEUX「十二月」AI设计观察
本文是MEUX「十二月」AI设计观察,介绍近期AI领域动态。12月1日DeepSeek推V3.2和Speciale模型,前者实用、推理达GPT - 5水平,后者推理强,还降低长文本推理成本。商汤Seko2.0可一句话生成AI短剧。11月27日阿里夸克AI眼镜发布,搭载千问AI助手。12月1日字节跳动发布豆包手机助手。同日美图设计室推出电商设计Agent。斯坦福发布MetaChat助力光学器件设计。Google计划2026年推AI音频眼镜。ChatGPT有应用内聊天功能,OpenAI发布“Atlas”浏览器,微软Designer重大更新。

“粤车南下”正式开通!百度地图首发赴港专属导航,联合官方权威数据打造赴港无忧导航新标杆
2025年12月23日“粤车南下”开通,百度地图同步上线赴港专属导航。该导航融合香港交通规则与实时路况,获运输署权威数据支持。它有多项优势,如提供“真”车道级导航,避免绕行;深度适配复杂路口,以3D视觉和动态箭头模拟路径,还推荐停车场;全面适配香港交规,提前播报规则;推出三大经典粤语语音包和林雪大佬同款车标。百度地图致力于成为粤港数字纽带,守护跨境畅行。

当 AI 比你更"熟练"时,如何划定控制权的边界?
本文围绕AI比人更“熟练”时开发者如何划定控制权边界展开。先点明AI在具体技法上比工程师更“熟练”,但缺乏战略直觉。接着提出R - C - V三维评估模型,包含风险不对称性、语境封闭性和验证成本。依据该模型制定决策矩阵,将开发任务分为四个象限并给出对应策略。还给出开发者自检清单,如考量可解释性、鲁棒性边界、无状态性和责任归属。最后指出AI重塑开发者定义,开发者应从“工匠”转变为“建筑师”,精准判断何时用AI,何时人掌控。

拆解用户产品心智:围绕工具型产品的研究思路
文章围绕工具型产品探讨用户产品心智。先介绍用户产品心智本质是对产品的认知判断,工具型产品关注功能性价值,涵盖产品相关度、独占性、渗透度。研究其心智很重要,可校准预期、筛选用户、绘制竞争地图。还分享研究框架,基于三大维度结合用户显性认知与NPS净推荐值构建立体模型,包括分析用户显性认知、产品相关度(含价值主张和使用场景分析)、产品渗透度(三级金字塔模型)、产品独占性(对比定位心智区域),最后强调产品心智是动态的,研究框架需结合实际调整。

当10年架构师拿起AI:不是写不动了,是写得太快了
文章指出过去一年AI编程工具兴起,个人使用有“爽感”,但组织应用面临“数据尴尬”,如项目交付周期未显著缩短等。12月25日晚19:00《架构师夜生活》直播将复盘AI编程在组织级落地情况,看点包括真实业务场景中AI提效数据、CTO推行易犯错误、代码规范等重构问题。嘉宾为技术决策者兼一线程序员,他们用“经验+AI”组合大幅提升生产力。主持人是腾讯云架构师技术同盟副秘书长Dora,还有四位专业嘉宾参与。

Agent全面爆发!一文搞懂背后的核心范式ReAct!
本文围绕ReAct范式展开,它是让语言模型完成复杂任务的智能体架构范式,构建“推理-行动-观察”闭环。介绍其核心思想源于人类解决问题认知过程,有四大设计理念。工作流程分初始化、循环迭代、终止输出三阶段。采用三层模块化架构。ReAct解决传统AI“事实幻觉”“策略僵化”“决策不可解释”“多场景适配高成本”问题。给出代码示例,适用于知识密集型、交互式决策等任务,与传统方法对比优势明显,但存在依赖LLM上下文窗口、缺乏行动效果评估等局限,可与强化学习、外部记忆机制融合优化。

IMA知识库:从0到1的架构设计与实践
本文分享腾讯AI智能工作台ima知识库从0到1的架构设计。先介绍知识库概念,它在AI时代升级为“智能助手”。接着阐述核心业务流程,包括知识入库、管理和应用。知识入库面临数据源多样、处理流程不一、入库洪峰冲击等挑战,通过建立统一数据格式、解耦流程、异步削峰解决。知识管理要应对数据操作复杂、异步架构下数据不一致、多级权限下数据安全问题,采取拆分服务、保障数据一致、深度建模与设统一网关等措施。知识应用核心是基于RAG和LLM的智能问答。最后指出架构需不断演进,邀用户体验ima。

腾讯技术面:聊聊MySQL五大核心模块
文章系统剖析 MySQL 核心技术架构,聚焦五大模块。分层逻辑架构含连接、服务、存储引擎层,各有功能。InnoDB 存储引擎用 B+树索引,有聚簇和二级索引,还解释单表 2000 万数据量限制。事务机制有 ACID 特性,通过 Undo Log、Redo Log 实现,MVCC 提升并发,可避免幻读。主从复制靠 BinLog 同步,有多种同步机制和拓扑结构。分区策略有 RANGE、LIST 等类型,不同业务场景有推荐策略,使用也有限制。

揭秘!腾讯如何训练多智能体像专家一样设计游戏场景
文章介绍腾讯游戏技术团队提出的游戏场景自动布局生成系统IntelliScene 2.0。游戏场景搭建痛点多、耗时长且依赖专家经验,要解决AI空间智能问题。IntelliScene 2.0以视觉引导为核心,其工作流程为:先构建含专家智慧的高质量数据集,再微调图像生成模型实现视觉引导生成,接着解析引导图片提取几何特征,最后构建场景图并全局优化。评估显示,该系统生成的场景在合理性、美学等方面获用户和专业人士认可。这为AI理解与生成三维信息提供新路径,也带来多智能体协作、视觉与语言结合、依赖专家数据三点启发,未来将探索更多可能。

教你从零“手搓”一个大模型,别再只会调用API了
本文教读者从零“手搓”大模型。先点明实践背景与目的,构建简单模型后指出其不足,引出后续内容。编码部分介绍分词器分类、BPE算法及编码过程。模型部分阐述embedding、Attention等机制,给出模型结构代码。训练与生成部分介绍推理、训练方式及采样策略。演示展示预训练和SFT后模型的不同表现,最后列出参考资料。

大模型的2025:6个关键洞察
本文介绍OpenAI安德烈·卡帕西的《2025年大语言模型年度回顾》。2025年大语言模型领域范式转变,AI训练从‘概率模仿’向‘逻辑推理’跨越,源于可验证奖励强化学习(RLVR)成熟,它成提升模型能力新引擎。卡帕西认为大模型是‘被召唤的幽灵’,有‘锯齿状’性能特征。他还论述Cursor揭示应用新层级,Claude Code展现智能体本地化优势,氛围编程让编程更普及,谷歌Gemini Nano Banana是大模型交互雏形。当前大模型虽有高实用价值,但行业对其潜力开发不足10%。

信息论如何成为复杂系统科学的核心工具
本文深入解读了发表于《Physics Reports》的重要综述,阐述信息论成为复杂系统科学基石的原因与方式。先介绍熵、联合熵、互信息等核心概念,又说明传递熵、主动信息存储等描摹复杂系统动态特征的指标,还讲述了部分信息分解解开信息协同与冗余的方法。在信息网络构建上提及统计网络和超图,以及用信息论衡量复杂系统整合与分离。同时指出应用信息论存在估计偏差、有向指标不代表因果等困难,最后提出神经信息估计器等未来研究方向。

关于AI教育,最核心的8个问题 | 附3万字报告下载
腾讯研究院联合北大相关基地发布《人机共育,向善而为:AI时代的教育变革探索指南》,探讨AI时代教育变革。报告回应八个核心议题:目标上,培养人机协同复合型人才;模式上,从“讲授+作业”转向“对话+共创”;学生要学会负责任用AI;教师角色深度转型;好工具要回归教育本质;学校制度向动态系统转变;企业、学校、政策端重构联动机制;社会利用AI构建普惠包容教育生态。

具身智能狂奔这一年
2025年是具身智能行业转折与机遇并存的量产元年。这一年行业节奏加快,融资和IPO火热,多家企业获高额融资并冲刺上市。机器人落地呈现场景、企业、形态分层特征,从汽车等行业切入,向产线协同延伸。不过,技术上算法成熟度、工程化、可靠性和安全标准等有挑战,成本与效率失衡,人形和非人形机器人落地难点有差异。投资界因募资与退出压力积极下注,估值存泡沫。成本测算显示,理想与现实有落差,多数场景下具身智能短期难具成本竞争力。未来3 - 5年,行业需在技术、商业、资本方面突破。

加载体验:不只是“等一等”
文章围绕数字产品加载体验展开,分析加载设计的必要性,指出其能解决系统处理时间不变下优化用户等待体验问题。阐述加载背后的两大心理机制,即进度感框架和主观时间感框架。介绍了加载的基础类型,包括确定型和不确定型,以及根据等待时长(瞬时、轻度、中度、重度)选择合适加载提示的方法。还列举了典型加载场景及策略,如任务可量化展示进度、无法量化时长不稳定、可提前处理或拆分的流程等。最后强调构建加载体验判断体系,围绕两个框架动态调整策略,重视加载体验优化,将系统处理转化为可感知的等待体验。

[A's周刊 12] 真实感与生命力
这是A's周刊12期,呈现2025.12.15 - 22日设计与科技趋势。2026视觉有环境现实主义等五种风格,强调真实与生命力。在线演示工具Mentimeter用手绘线条塑造品牌亲和力。Caligra C100是程序员专属硬件终端,有仪式感。电通报告用六线法则讲算法美学。DNCO重塑阿姆斯特丹金融区,打造商业村内的村庄。《Urban Handbook》展现城市动物魅力。

大数据数据资产智能答疑实践
文章围绕货拉拉大数据数据资产智能答疑实践展开。随着货拉拉数仓发展,数据答疑需求增加,智能答疑工具应运而生。介绍了Fine - tuning与Embeddings两种知识库答疑方法,以及HyDE、GraphRAG解决方案。指出数仓答疑问题源于争议字段、模糊口径、数据质量。分析现有答疑流程特点与缺陷,给出架构思路,包括关键词提取、维护数据字典和知识库等。还探讨未来方向,如打通数据血缘、解决数据质量问题、采用更多RAG架构、补充场景、利用开源框架。最后认为只要有成本控制和LLM问题,RAG仍有效。

AI拍货选车,开启拉货新体验
货拉拉为解决用户选车难题,推出“拍货选车”功能。用户在APP首页点击“拍货选车”图标,三步即可完成操作:启动相机、拍摄货物、获取推荐。该功能利用AI视觉识别与语义理解能力,精准估算货物尺寸、理解搬运需求,结合车型数据库筛选最优车型。技术上,以Prompt为核心构建框架,通过多层级引导逻辑适配货运场景,构建分层抽样数据集,建立调优验证机制。此功能已面向全国开放,未来货拉拉将持续优化。

出海技术挑战——Lalamove智能告警降噪
本文介绍Lalamove监控告警在国际化业务的实践。告警能助研发保障服务稳定,但告警噪音会致‘告警疲劳’。当前基于规则的告警配置多、易被业务因素触发,工作量大。为此提出两种降噪方案:规则优化,调整灵敏度、过滤非紧急告警;智能算法,用机器学习预测状态。智能算法基于历史数据训练单量预测模型,分节假日和天气场景做特征工程,用分位数回归LGBM模型预测动态阈值。还设降噪服务处理模型误差和稳定性问题,采用参数微调与数据缓冲结合的阈值反馈调整机制。该机制已在核心领域运行,噪音下降80%,减轻值班压力。

ASR+LLM+RAG视频内容识别全方案
文章针对视频内容爆发下品牌广告推广品类识别难题,提出“ASR+LLM+向量知识库”方案。介绍技术架构,含ASR转写、文本预处理、精准匹配、模糊检索、常见映射case闭环模块。阐述关键技术难点及解决办法,如拆分单LLM节点、优化知识库检索、精准调参。效果反馈显示,随着常见映射case库沉淀,准确率上升。该方案解决核心痛点,实现精准识别与自迭代优化,可应用于各类AI识别场景。

脑机共生:超声读脑、AI绘梦、视觉重建的三重革命
2025年12月13日,天桥脑科学研究院脑机接口与人工智能论坛上,三位科学家展示脑机共生研究成果。刘冰团队绕过眼睛向大脑“写入”视觉信息,率先实现高精度光幻视诱发,其植入式系统预计明年送检;丘志海团队用超声波“隔空”调控大脑,可改善小鼠记忆和评估患者意识,正研发可穿戴超声设备;袁春团队从脑电信号生成高质量图像,模型开源后被国际采用,新一代模型将结合视觉皮层结构。脑机接口目标是增强人类能力,拓展感知边界。

一文彻底看懂 Google 最新开源 A2UI 协议:如何让 AI Agent “说出UI” ?
文章介绍Google开源的A2UI协议,旨在解决AI Agent驱动交互界面生成与更新的问题。传统Agent与用户交互依赖文本或语音,在企业级场景效率低。A2UI是声明式生成式UI规范,允许AI Agent用JSON描述UI布局与组件,前端负责渲染。其具有安全声明式设计、LLM友好、跨框架跨平台、状态与数据绑定等特点。通过餐厅预订场景实例展示其工作流程,包括生成消息、绑定数据、渲染界面、处理用户交互等。A2UI与AG - UI、CopilotKit分工合作,与MCP、A2A等协议组合使用,补齐Agent应用栈关键一环,虽处于早期,但有望推动AI应用发展。

A Protocol for Agent-Driven Interfaces
A2UI是谷歌创建的用于代理驱动界面的协议,当前处于v0.8公共预览早期阶段。它能让AI代理生成跨网页、移动和桌面原生渲染的丰富交互式用户界面,且无需执行任意代码。其解决了AI代理跨信任边界安全发送富UI的问题,采用声明式数据格式,具有安全、对大语言模型友好、框架无关、渐进式渲染等特点。文中介绍了其在GitHub的开发情况,还提供了5分钟快速上手指南,涵盖运行演示、理解核心概念、开发者指南、协议参考等内容,最后展示了其在景观设计师应用、自定义组件等方面的实际应用,CopilotKit还有公共A2UI小部件构建器供试用。

AG-UI Introduction
本文介绍了 Agent User Interaction Protocol (AG-UI)。它是连接前端应用与 AI 代理的开放协议,像通用翻译器保障流畅通信。AG-UI 助力开发者构建需实时交互、状态流和人机协作的 AI 工作流,提供与前端集成方法、通信构建块和最佳实践。它已与多个流行代理框架集成,架构上通过轻量级事件驱动协议连接前端与 AI 代理。技术上轻量灵活,有事件驱动通信、双向交互特点,内置中间件层提高兼容性。AG-UI 专注代理与用户交互层,与 A2A、MCP 协议互补。文章还给出快速开始路径,提供资源、探索方向,介绍贡献、支持和反馈途径。

Characterize Vue.js
文章从四个方面系统阐述了Vue.js的特点。一是可接近性,它并非简单易上手,而是能适应不同需求,支持传统模式,开发者可灵活选择规则。二是语言特性,可视为描述UI的领域特定语言,扩展了HTML、CSS和JavaScript的功能,有声明式模板描述、组件化设计等,且具备完善的语言工具。三是生态系统,从Vue.js衍生出众多项目,如Vite、Volar.js、UnJS等,还诞生了VoidZero以构建统一工具链,旗下Oxc、Rolldown等工具性能卓越。四是社区,社区成员的个人项目推动了生态发展,凭借长期对开源的坚持和对社区声音的倾听,建立了信任,其创新成果惠及整个Web开发社区。这些特点相互影响,构成了Vue.js的核心价值。

Trends That Defined JavaScript in 2025
2025 年是 JavaScript 生态系统的变革之年,有多个趋势值得关注。在框架方面,更多开发者呼吁“Web 标准优先”理念挑战 React,同时元将 React 治理移交独立基金会;新框架不断出现,Signals 成非 React 框架响应式核心,编译器承担更多优化工作。工具方面,Vite 创造者推出基于 Rust 的统一工具链 Vite+。AI 从后端走向前端,有 MCP 服务器助力框架结合 AI,还出现框架无关的 AI 工具包,以及可在浏览器内运行的 AI 框架。2025 年虽有进展,但也留下框架是否融合、未来框架发展、AI 影响等问题待 2026 年解答。

General summary
2025 年谷歌在 AI 研究领域成果丰硕。在模型方面,推出 Gemini 3 等,提升推理、多模态理解等能力,还开放 Gemma 系列。产品上,为开发工具和核心产品赋予强大智能代理能力。创意领域,生成式媒体工具更有效,实验室有诸多有趣实验。科学数学领域,助力生命科学、医疗、数学和编程取得突破。计算和物理世界中,量子计算迈向应用,改进 AI 基础设施。还利用 AI 应对全球挑战,如天气预测、疾病管理和教育。同时重视责任安全,与各界开展前沿合作。展望 2026 年,将安全负责地推进前沿研究。

karpathy: 2025 LLM Year in Review
2025年大语言模型(LLM)发展成果丰硕。新出现的基于可验证奖励的强化学习(RLVR)成为训练新重要阶段,使模型展现类似‘推理’策略,优化能力强且性价比高。人们开始意识到LLM智能与人类不同,其能力表现参差不齐。Cursor揭示了LLM应用新层次,Claude Code展示了可在本地运行的LLM智能体新范式。‘氛围编码’让编程不再局限于专业人员。Google Gemini Nano banana暗示了LLM图形用户界面(GUI)的发展方向。总体而言,LLM潜力巨大,行业发展前景广阔。

使用 NVIDIA Isaac 构建医疗机器人:从仿真到部署
本文是使用NVIDIA Isaac构建医疗机器人的实用指南。NVIDIA Isaac for Healthcare为AI医疗机器人开发者提供全流程工具链。SO - ARM入门工作流提供端到端流程,包括用LeRobot与SO - ARM采集数据、微调GR00t N1.5模型并评估部署。技术实现采用三阶段流程,结合仿真与真实硬件,超93%策略训练数据来自仿真。该流程结合约70个仿真和10 - 20个真实演示训练,解决现实训练成本高和纯仿真难还原现实的问题。还介绍硬件要求、数据采集实现、仿真遥操作控制、模型训练流程、完整仿真采集 - 训练 - 评估流程,最后给出快速开始步骤和资源链接。

在这场峰会上,我们听到了小游戏下半场的“生存指南”与未来的增长点
2025 小游戏新增长峰会探讨小游戏发展。技术与工具链抬高天花板,Unity 引擎支撑多类型小游戏上线,推出试玩广告平台,宿主平台降低接入成本。平台搭建复访路径,改变获客逻辑,释放社交能力。投放规模扩大,DataEye 预计 2025 年市场规模增长,引力引擎强调构建可预测投放体系。《猪了个猪》调优经验显示,IAA 产品可借平台能力、素材创新增长。小游戏门槛转向判断与组织效率,未来形态向中重度延展,出海需考虑产品适配度。行业进入系统协同、拼长期阶段。

微软亚洲研究院2025年终盲盒已就位,开启你新一年的AI能量!
2025年全球智能技术从语言交互向场景落地转变,微软亚洲研究院将一年成果藏进十个科研盲盒。这一年,其新加坡分院成立拓展科研版图;底层技术构建成果多,如RPT、Logic - RL等;在沉浸式体验、智能助手、产业赋能、社会责任、学术合作等方面均有进展,多项技术取得突破,如VASA - 3D、Phi - Ground等;多位研究员获学术认可,还开展系列活动培养人才、分享思考。最后邀请读者留言抽取幸运关键词赢周边。

ML Kit Prompt API|赋能设备端 Gemini Nano,打造专属定制体验
文章介绍 Google 正式推出 ML Kit GenAI Prompt API 的 Alpha 版本,可向 Gemini Nano 发送自然语言和多模态请求,满足构建生成式模型时对可控性和灵活性的需求。Kakao 等合作伙伴已用其打造独特体验。该 API 突破预构建功能局限,支持自定义 GenAI 用例,使用设备端 Gemini Nano 处理本地数据,离线可用且强化隐私保护。其主要用例包括图像理解、智能文档扫描等。实现时只需几行代码,还可设置可选生成参数。目前在 Pixel 10 系列设备上表现最佳,开发者可基于同源架构轻松构建原型,无该设备也可用 Gemma 3n 进行本地原型设计。

When a video codec wins an Emmy
2025 年 12 月 4 日,AV1 规范获电视艺术与科学学院技术与工程艾美奖。此前网络视频编解码器依赖封闭许可系统,费用高昂且不可预测,H.264 是主流,H.265 虽有潜力但有风险。为解决问题,2015 年 Mozilla 等成立开放媒体联盟(AOM)研发下一代编解码器,2018 年推出 AV1,它是开放标准且免专利费,应用广泛。AV1 也是图像格式 AVIF 的基础。艾美奖体现了开放标准等的价值。目前 AOMedia 正研发 AV2,其压缩效果更好,目标是让网络视频开放、高效、人人可及。

Building a Nostalgic 8-bit Universe with Modern Tech: A Vibe Coding Journey
本文讲述作者用现代技术构建怀旧8位宇宙的编码之旅。作者自2017年后更新个人作品集网站,回归80年代像素风格。以像素为设计系统,从视觉、交互语言入手,如采用“像素蒙版”过渡、搭配8位音效等。通过.cursorrules文件建立设计规则约束AI。运用“乐高方法”构建组件,提前在Storybook验证。为兼顾复古外观与现代性能,对Canvas和WebGL深度优化,如实现单例模式的PixelationManager、DistortedPixels组件的自适应质量逻辑等。同时平衡复古美学与现代可用性,优化后端工作流程实现内容自动化。最终网站保持约80的Lighthouse性能得分。

An Introduction to Zustand
文章介绍状态管理库Zustand,其在2024年React调查中使用率上升。与Redux等相比,它简单轻量、学习曲线小、性能好。文中给出使用步骤,先安装,再创建主题切换、用户偏好等不同复杂度的store示例,展示在组件中使用store的方法。还说明了状态更新机制,顶层自动合并,嵌套需手动处理。最后给出单多store使用、切片、外部定义动作等组织和最佳实践,体现其简单灵活,适合大小项目。

Replacing JS with just HTML
文章指出多年来 JavaScript 是网络主力,但随着 HTML 和 CSS 发展,应减少对 JS 的依赖。介绍了用 HTML 替代 JS 实现部分功能的方法,包括用 <details> 和 <summary> 实现手风琴效果、用 <input> 和 <datalist> 实现自动过滤下拉框、用 <popover> 和 <popovertarget> 实现模态框和弹出框,还能用这些属性实现无 JS 的侧边导航。最后强调要合理使用 JS,让其专注处理 HTML 和 CSS 无法完成的任务。
