
实测GPT Image 1.5,跑分第一的它击败Gemini了吗?
文章围绕GPT Image 1.5展开,它是OpenAI最新图像生成与编辑模型,全面升级且免费开放给ChatGPT用户,还开放API。其优点显著,生成速度快4倍,指令理解与遵循强,编辑能力升级,细节和真实感增强,登上多个榜单第一。模型在图像编辑、指令跟随、文本渲染方面效果提升,多维度优化输出可用性。网友测试显示它与Nano Banana Pro各有优劣。GPT-Image-1.5从生成工具迈向创意生产系统,优势在于通用性等,未来图像生成或走向设计自动化等。

我第一次被AI震惊的瞬间丨架构师坦白局
架构师坦白局聚焦“我第一次被AI震惊的瞬间”。得物技术专家程红星、某银行系统架构师王海涛等多位架构师分享经历。他们首次被AI震惊的时刻各有不同,如程红星因AI处理信息和写代码能力,王海涛因AI迁移代码的高效。AI改变了他们工作习惯,如查资料、写代码等。对程序员而言,AI提高效率、解放认知带宽,但也带来焦虑。未来架构师与AI将是共生关系,AI负责执行,架构师聚焦决策。各位架构师还表达了希望AI解决的痛点,如跨系统架构一致性校验、增强对复杂问题处理能力等。

首发!建议你一定要看的《AI 生成代码在野安全风险研究》
本文是腾讯安全平台部悟空代码安全团队联合北大、复旦的研究。AI融入研发提升效率,但也带来安全挑战。研究基于开源与漏洞数据,分析AI生成代码使用、演化及对软件安全的影响。其演进呈爆发式探索、理性回归、稳定协作三阶段,在不同语言渗透不均。AI在漏洞生命周期角色不固定,引入的漏洞模式化,集中在输入验证、API调用。为缓解风险,需建立评测基准、增强模型本体安全、人机协同治理,推动AI编程安全可控发展。

鹅厂员工闭着眼睛写出来的代码都有哪些?
文章以‘有没有一段代码,你写过不下十次’为话题,邀请10位鹅厂同事分享‘闭着眼睛都能写出来的代码’。这些代码涵盖多种语言和场景,如Go语言的错误处理if err != nil { return xxx,xxx }、Java和C++开发常用的git操作命令git status等、协程异常处理go func() { defer func() { if err := recover(); err != nil { ... } }() }(),还有Python环境变量开关设置、防卫式编程代码等。

“作品灵魂的关键在于作家本身,AI永远无法替代优秀作家”|破晓访谈
本文是腾讯研究院与中国传媒大学合作项目访谈阅文杨沾,探讨AI对网络文学影响。阅文推出AI助手覆盖创作全链路,但AI难替代优秀作家。未来网文生态或呈“橄榄型”,文字与视频创作难完全融合。GenAI使IP跨模态运营便捷,但难评估IP价值。当前AI缺乏前瞻性判断,多数用户对AI创作接受度低。网络文学出海可借视觉化转型和AIGC定制提升效率。

十年谣言治理之路:从信息净化到信任重构2015-2025|腾讯新闻较真十周年谣言治理白皮书
该报告回顾2015 - 2025年中国网络谣言生态演变、传播规律、公众认知变化及治理体系升级。十年间,谣言历经常识启蒙与生活谣言高发、重大公共事件视频化蔓延、AI融合下内容多元化三阶段。传播渠道从文本到短视频与算法裂变,公众认知也不断变迁,对健康类谣言判别能力弱。辟谣手段从人工核验到AI驱动智能进化,治理生态向多元协同转型,辟谣成效获量化评估。未来面临AIGC冲击、多模态鉴别难等挑战,需搭建智能辟谣系统、构建信息信任生态、推广媒介素养教育,实现从“事后辟谣”到“主动免疫”转型。

浅谈设计视角下的数据解读
文章围绕设计视角下的数据解读展开,从A/B测试出发探讨如何理性看待实验数据并为设计决策提供支撑。先介绍A/B测试关键概念,如‘显著’与P值、最小样本量、实验时长等;接着指出分析数据时要避免落入理解陷阱,如对齐口径和颗粒度、排除新奇与首因效应干扰、关注分层数据;强调理性看待数据,关注数据背后及警惕体验牺牲;还给出电商场景提升转化的经验,包括提高信息命中率、让更多信息被看见;最后总结要理性看待数据价值与边界,积累经验探索新可能。

[A's周刊 11] 未来与新生
这是A's周刊11期内容,涵盖2025.12.08 - 12.12设计与科技趋势。OpenAI发布GPT - 5.2,推理和生产力强,与Gemini技能有分化。2026年米兰 - 科尔蒂纳丹佩佐冬奥会品牌设计融合意式美学,会徽、吉祥物等设计各有特色。Pinterest报告显示2026趋势有二元性,不同代际共塑潮流,“不完美”成新美学。潘通2026年度色为“云舞白”,带来宁静重启之感。不二家获2025年金点设计奖,还有其他优秀获奖作品。英国铁路公司推出新品牌形象,融合复古与现代,引发争议。

AEnvironment - 面向 Agentic RL 时代的环境系统,开箱即用,万物互联
文章围绕面向 Agentic RL 时代的 AEnvironment 环境系统展开。它是 ASystem 为 Agentic RL 打造的基础设施,以‘Everything as Environment’为核心理念,将复杂环境搭建简化。其核心亮点包括超大规模支撑、支持 Agent as Environment、极速应用生成、高质量数据合成和内置主流 Benchmark。它能解决大规模强化学习训练中环境工程的性能、稳定性和多样性问题,还可实现小应用极速生成、多智能体交互等。采用分层架构,解耦环境研发与运行时执行。未来将面向 AI Agent 提供更丰富环境,优化性能和稳定性,建设多方面能力。相关代码已开源。

论文秀Live#29 NeurIPS'25|AI新魔法:生成式分割、时空推理和历史检索,一应俱全!
这是关于NeurIPS 2025论文秀Live#29的介绍。NeurIPS是机器学习和计算神经科学顶级国际会议,2025年在美国圣地亚哥和墨西哥城举办。本期论文秀将分享三项成果。一是ARGenSeg,基于自回归图像生成范式,让多模态大语言模型直接输出视觉令牌并解码,用多尺度预测策略提升推理速度,实验证明超越现有方法。二是通过画图辅助空间思考新范式,构建三阶段训练框架,使ViLaSR模型在多个基准测试中平均性能显著提升。三是TS - RAG将检索增强生成机制引入时间序列预测,增强模型对复杂模式的建模能力,在零样本预测中性能提升且增强可解释性。直播于2025年12月18日18:00 - 20:00在多平台同步进行。

从"人工催办"到"AI 规则驱动":我们如何解放测试团队的生产力
文章围绕解放测试团队生产力展开,指出测试人员兼做项目管理成‘人工待办清单’,使测试工作被流程管理占用。为此打造超轻量项目管理工具,从三方面努力。一是制定动态规则系统,按规模控粒度、按类型分节点、多维度定规则,但规则执行难。二是让规则融入项目群,以低成本智能交互、节点推送解决执行问题。三是通过企微群机器人、转换层、基于Coze的自动化流程三层框架实现落地,有自动接入等功能,效果良好,还解答疑问并给出团队建议,后续将赋能更多流程节点。

转转大数据与AI——数据治理安全打标实践
本文分享转转大数据治理中AI大模型自动安全打标实践。先介绍应用背景,数据治理含业务与分析体系治理,安全打标为满足管控等需求;AI打标解决人工打标慢且不准确问题,有及时性等优势。还阐述AI技术发展及ZZ - Dify平台作用与大模型缺陷。技术实现包括架构、模式演变等设计,Dify平台工作流设计。优化案例有提示词、重计算结果、分批次打标优化。未来规划是覆盖全业务、提高响应速度、提供多数据源自适应表优化服务。最后总结强调用好模型、工程化能力及持续优化的重要性。

我在车库踩单车,却想明白了如何用AI改变美国的教育
作者由骑行训练应用获启发,探讨用AI改变美国教育。美国教育危机严峻,学生成绩下滑,AI融入利弊并存。作者提出“自适应阈值学习”(ATL)系统,可精准定位学生能力,生成个性化教学方案。在公立学校引入ATL,能重塑教学形态,教师角色转变,还需革新评分体系。但ATL也有风险,如过度适配、放大不平等。历史上杜威、罗蒂的教育理念与ATL契合,ATL有望成为连接传统理念与实际教育的桥梁,为学生提供专属成长路径。

AI架构师的诞生:AI+传统DDD模式 = 实现开发效率提升75%
本文以淘宝闪购服务包系统为例,介绍借助AI辅助DDD落地提升开发效率。原单体架构存在开发成本高、重复代码多、架构耦合等问题。改造目标是结合AI与DDD,实现智能化架构演进。架构设计阶段先由AI拆解限界上下文,人工修正后再细化。代码实现阶段基于文档生成骨架,AI辅助完成代码。重构效果显示,架构解耦度提升,重复代码消除,开发成本降低,效率提升75%以上。AI架构升级具有智能分析、高效生成、质量保障等价值,未来人机协作将成软件工程常态。

干货收藏|深度解析数据分析Agent技术原理与产品发展
文章围绕数据分析Agent展开。先介绍瓴羊发布《数据分析Agent白皮书》。领域背景上,2023年LLM使对话取数可能,2025年数据分析Agent成企业级智能助手,AI重构数据分析各环节。技术名词解析了NL2SQL、ChatBI等。数据分析Agent内核框架有典型工作模式,内核拆解为QueryAgent等。ChatBI技术实现有NL2SQL、NL2DSL、NL2Data路线,各有优劣。Quick BI推出智能小Q,复用全链路数据能力。未来,数据分析Agent面临数据准度、分析深度、消费广度考验,需综合方案突破。

打造社交APP人物动漫化:通义万相wan2.x训练优化指南
文章围绕为社交 APP 集成 AIGC 驱动的个人宣传视频生成功能展开。项目旨在将用户上传的真人图像转化为动漫风格跳舞短视频,针对现有 AIGC 模型在动态动作生成、风格控制等方面的痛点,进行模型选型,选定 wan2.1 和 wan2.2 对比。构建多模态训练集,采用 LoRA+全参对比训练。训练中因显存不同,两模型参与训练帧数有差异。为提升训练和推理速度、减少显存占用,采用 Sage Attention、TeaCache 等优化方法。通过客观指标(PSNR、SSIM)和主观打分综合评价模型训练效果,最终选择性价比最高的 wan2.1 lora 模型作为上线生产环境的主力模型。

阿里云 Tair 基于 3FS 工程化落地 KVCache:企业级部署、高可用运维与性能调优实践
本文介绍阿里云 Tair KVCache 团队对 3FS 的工程化升级实践。KVCache 可减少大语言模型推理的计算冗余,但扩展存储选型存在问题,3FS 有高吞吐、低延迟等优势,但也有不足。团队从三方面升级 3FS:性能上,均衡 RDMA 流量、调优小 I/O 参数,提升 4K 随机读 IOPS,引入全用户态落盘引擎;产品方面,解决 Mgmtd IP 漂移等问题,新增 GDR 零拷贝和多租户隔离能力;运维上,基于 Kubernetes Operator 实现一键部署等功能。此外,还展示了 3FS 在推理引擎和 Tair KVCache Manager 中的集成实践,最后展望了 3FS 产品化和服务器硬件能力的提升方向。

面向业务落地的AI产品评测体系设计与平台实现
本文围绕面向业务落地的AI产品评测体系设计与平台实现展开。先阐述背景,淘宝闪购技术部AI应用从探索转向落地,形成四类场景。但AI产品落地面临研发合作模式变革、技术演进等挑战。接着提出评测体系思考,包括从五维度评价产品,推荐基于端到端评测,按“变更范围×变更风险”设计评测策略,构建线上评估闭环。平台建设方面,采用“标准化流程+插件化扩展”理念,沉淀多种能力,取得用户增长、资产沉淀等成果。未来展望包括支持多模态评测、搭建可视化标注工作台、开放“评测能力插件市场”。

AgentScope x RocketMQ:打造企业级高可靠 A2A 智能体通信基座
文章围绕 AgentScope 与 RocketMQ 展开,介绍其如何打造企业级高可靠 A2A 智能体通信基座。先指出 AI 时代多智能体协作通信机制脆弱的问题,引出 RocketMQ 轻量级通信模型 LiteTopic,它能简化系统架构、提升稳定性。详细阐述了其特性、技术解析、生产案例等。还说明了基于它可实现企业级 Session 管理,解决会话状态丢失等问题。接着介绍 A2A 协议及基于 RocketMQ 的实现,对比同步 RPC 与异步通信。最后结合 AgentScope,给出构建多智能体应用的实战案例和步骤,包括搭建“智能旅行助手”及阿里云上的体验方案。

AI 应用构建“进化论”:从开发、使用体验到企业价值
作者结合阿里云AI Agent产品设计经历,阐述AI应用构建的三次进化。一是让开发者“能构建”,最初假设B端开发者能接受复杂度有误,后续重新设计Onboarding流程,降低起步负担、减少挫败感,让“第一次成功”尽快发生。二是让用户“能理解”,Agent技术成熟使中间信息涌现,全部展示会信息过载,隐藏过多会失信任,实验得出适度透明度能提升用户体验,总结出信息架构助用户“看懂”智能体。三是让智能“能沉淀价值”,企业关注数据资产调用、业务经验沉淀等,为此构建企业级智能体基础设施。每次进化都有“放弃”,在对的阶段取舍很重要。

CAMEL-AI 上海线下 Workshop 活动回顾:构建更强大的自主多智能体
2024年12月12日,CAMEL - AI团队在上海张江科学会堂GDPS大会现场开展Hands - on Workshop。活动从13:30至16:00,主讲人有孙韬、范文栋、Ahmed。活动摒弃传统听讲,围绕全链路构建展开。包括从0 - 1搭建单Agent,使其具备‘手眼’能力;讲解经典Role - Playing协作系统,实现多Agent对话协作;分享高阶Workforce多智能体协作系统,处理复杂工作流。现场Q&A环节解答了Workforce任务处理、任务拆分、模型工具调用能力、商业化进展及多智能体适用场景等问题。最后邀请大家加入CAMEL - AI社区,一起构建自主多智能体系统。

达摩院 AAAI'26|机器人只会“傻抓”? AffordDex 让灵巧手抓得稳、抓得巧、抓得对
阿里巴巴达摩院联合多高校团队发布全新机械臂灵巧手抓取框架AffordDex。现有方法多关注抓取稳定性,忽略功能正确性和拟人性。AffordDex采用两阶段训练,先模仿人类手部运动数据注入拟人动作先验,再通过负功能区域分割(NAA)模块和教师 - 学生蒸馏学习精调策略。实验表明,它在抓取成功率、动作拟人度和功能正确性上超越当前顶尖方法,有卓越泛化能力。不过,该方法存在应对复杂几何和迁移到现实世界的挑战,为通用具身智能发展奠定基础。

NeurIPS'25 Spotlight | 从LoRA到Uni-LoRA:参数高效微调的统一理论与极致压缩实践
本文聚焦模型参数轻量化优化,基于LoRA方法创新。指出LoRA变体的‘参数空间压缩’策略可在Uni - LoRA统一框架表达,不同LoRA方法本质差异在于投影矩阵P选择。当前许多LoRA变体投影方式限制跨层参数共享,影响效率。为此提出高效等距投影矩阵,支持跨层全局参数共享,降低计算成本。在该框架下训练一个向量就能重构LoRA参数。大量实验表明,Uni - LoRA在保持性能同时,实现最高参数效率,优于现有方法。论文和代码链接分别为https://arxiv.org/pdf/2506.00799和 https://github.com/KaiyangLi1992/Uni-LoRA。

OpenAI :你不需要跨平台框架,只需要在 Android 和 iOS 上使用 Codex
OpenAI发布《使用Codex在28天内构建Android版Sora》,介绍用AI编程助手Codex,4名工程师28天完成Sora Android版开发,无崩溃率达99.9%。开发中,Codex负责写代码等,开发者负责架构设计等。技术路径包括先规划后代码、背景信息驱动、跨平台逻辑转换。团队总结与AI协作准则,将Codex当高级工程师,人类奠定架构基础。Codex能实现24小时连续开发,可分布式工作。跨平台开发利用AI逻辑搬运,降低成本。工作流重组后,AI承担繁琐工作,解放工程师去思考创新和体验。

再次紧急修复,Flutter 针对 WebView 无法点击问题增加新的快速修复
2025年12月17日消息,Flutter针对WebView无法点击问题再次紧急修复。此前官方完整底层重构修复仅解决Engine和Framework层面,插件端适配拉长链路。此次PR #179908为快速修复方案,已合并到master。其方案‘暴力’有效,找到特定手势识别器,先禁用再启用以重置状态。具体在FlutterTouchInterceptingView中添加两个辅助方法,在blockGesture中调用。searchAndFixWebView递归遍历找WKWebView,searchAndFixWebViewGestureRecognzier遍历手势识别器并开关状态。还修改blockGesture,增加FLTDisableWebViewGestureReset作安全阀。该方案无需插件更新,但为临时修复,真正修复推荐走之前的hitTest。

iOS 26 这个新特性,圆角设计不再"手动算"了,优雅不过如此
文章介绍了 iOS 26 中 SwiftUI 的 ConcentricRectangle 新特性。此特性遵循“角同心性”原则,内外层圆角共享中心点。创建同心形状有两种写法,其圆角半径从容器形状推导,容器可以是设备边框、Sheet、Popover 等。做自定义 UI 需用 containerShape(_:) 修饰符定义容器形状,且容器形状要遵循 RoundedRectangularShape 协议。同心形状圆角半径会动态计算,可设 isUniform: true 统一圆角,还能设置最小圆角半径。该特性实用,但有容器形状协议、性能等限制。

从豆包手机谈起:端侧智能的愿景与路线图
本文从豆包手机助手谈起,探讨端侧智能愿景与路线图。豆包手机助手是系统级GUI Agent,其核心GUI Agent技术历经三阶段发展,工程与模型侧均有突破,标志着该技术走出实验室。但它也存在终端调用云侧模型有安全风险、自主完成任务及个性化与主动服务能力不足等问题。未来AI手机技术体系需向端侧、全模态、自主、主动智能四个方向演进,不同阶段行业格局也会有不同变化,端侧智能将成驱动智能硬件发展的重要动力。

刚刚,karpathy对2025 LLM做了年度复盘
2025年12月20日,karpathy对2025 LLM做年度复盘。这一年LLM领域进展强劲且多变,有诸多范式转变。RLVR训练让LLM自主发展推理能力,吞噬预训练算力;LLM呈现锯齿智能,基准测试易被刷榜;Cursor揭示LLM应用新层;Claude Code运行在本地,是新交互范式;氛围编程使编程大众化;谷歌Gemini Nano banana预示LLM交互向视觉化转变。核心洞察是LLM能力矛盾,行业仅挖掘10%潜力。

今天,Codex不是主角,而是OpenAI这篇90页推理模型CoT研究
OpenAI 发布 GPT - 5.2 - Codex 并发表 90 页《评估思维链可监控性》论文。论文首次系统定义量化‘可监控性’,拆成 TPR 和 TNR 双向指标。提出干预、过程、结果属性三大评测范式。关键发现有:CoT 越长可监控性越高;RL 大规模训练未明显削弱可监控性;小模型高推理努力可提升可监控性;弱监控器靠追问能变强。还训练了‘故意隐藏’模型 organism 测试。最后给出开发者、监管者、研究者的实用建议。

小米也卷起大模型,开源MiMo-V2-Flash
2025年12月19日消息,小米发布并开源MiMo - V2 - Flash,这是罗福莉执掌小米大模型后首秀。它是功能强大、高效且超快的基础语言模型,总参数量309B、激活仅15B,采用混合注意力架构。在推理和编程评测中表现优异,位列开源模型前列,比肩顶尖闭源模型。该模型专为推理、编程与智能体场景打造,支持混合思维模式等。此外,小米提出“多教师在线策略蒸馏(MOPD)”范式,训练稳定高效,仅需传统链路不到1/50计算资源,还能形成“教学相长”闭环迭代。

今年看到最系统的AI Agents时代Memory综述~
PaperAgent分享《Memory in the Age of AI Agents: A Survey》综述。因LLM有“金鱼脑”问题,需外挂记忆体。文章用“形态 - 功能 - 动力学”三维框架剖析200 + 篇论文。提出新三大记忆形态:Token - level、Parametric、Latent。功能上分为Factual、Experiential、Working Memory。动力学涉及形成、演化、检索闭环。还给出Benchmark、开源框架对比,展望7大前沿方向,如生成式记忆、自动记忆管理等。

成本下降 80%,AI协同框架让「小模型」也能完成复杂任务,媲美主流大模型推理表现
大型语言模型在复杂推理任务领先,但成本高、算力消耗大。MIT CSAIL 提出 DisCIPL 协作策略,让大模型负责策略规划,小模型执行细节任务。该策略基于 LLaMPPL 程序,遵循多种推理模式。研究团队通过多方验证评估其性能,将它与仅用小模型、GPT - 4o 单体执行及 O1 对比。结果显示,DisCIPL 在准确性和连贯性上接近或优于 GPT - 4o 与 O1,远超仅用小模型,且推理时间比 O1 缩短 40.1%,成本降低 80.2%。它使用低成本小型 Llama 模型,更具可扩展性,让小模型也能完成复杂任务。

OpenAI推出「AI工具链」,让湿实验室生物研究更快更智能
OpenAI携手Red Queen Bio构建评估框架,让GPT - 5优化分子克隆协议。多轮实验中,GPT - 5使克隆效率提高79倍,引入大肠杆菌重组酶RecA和噬菌体T4基因32单链DNA结合蛋白(gp32)。以吉布森组装反应为优化起点,GPT - 5提出新酶促方法让效率提升2.5倍以上。为提高通量,还构建机器人系统,能接收自然语言克隆协议并执行。这些实验展示AI与生物学家协同加速研究进程,虽尚处早期,但显示出AI辅助实验室工作、加速科学发展潜力,同时也需评估和降低生物安全风险。

OpenAI发布专家级科学能力评估基准FrontierScience,Gemini 3 Pro与GPT‑5.2表现相当
2025年12月17日,OpenAI发布专家级科学能力评估基准FrontierScience。现有科学基准存在局限,该基准由专家编写验证,有奥赛和研究两个赛道。奥赛赛道含100道题评估推理能力,研究赛道有60项子任务评估科研能力。评估维度涵盖理化生,采用不同评分模式。OpenAI对多款前沿模型评估,GPT - 5.2表现最优,Gemini 3 Pro在奥赛题集与GPT - 5.2相当。当前模型解答专家级问题有进展但有不足,FrontierScience有局限,未来需提升通用推理和专项能力。

TRAE CN 企业版:面向 AI 驱动开发的企业级 IDE
12月18日,字节跳动发布AI编程工具TRAE CN企业版,为企业提供AI编程方案。产品负责人介绍,个人版注册用户超600万,70%为专业开发者。企业版针对性能、部署、效能、安全四大挑战做优化,有多层次安全保障,借助火山引擎有算力、索引、网络优势。它还具备企业级管理能力,能多维度分析价值。提供IDE、插件、CLI三种产品形态,深度开放集成。字节内部实践显示,抖音生活服务团队AI代码贡献率43%+,测试用例生成每周省44.56人天,无人发布单次省25分钟;抖音质量团队单测效率提升数倍。

学习AI,助力开发--AI如何改变我的工作
本文作者郭忠强分享学习AI助力开发的经验。大模型已普及,作者建议学习AI知识并推荐入门书籍。日常开发用公司的JoyCode提效,介绍多个开发案例:后端功能开发中AI约辅助完成70%,存在不足需人工补位;VUE前端开发几乎可完全托管给JoyCode;单测、报文分析、大数据脚本生成等场景中,提示完善时AI表现较好。还提及项目报错分析、发布MAVEN API、慢SQL和死锁分析等案例,最后展望AI未来,给出JoyCode官网和开源链接。

OxyGent 多智能体协作框架新版本发布
2025年12月18日,OxyGent多智能体协作框架发布新版本,支持多模态信息传递等新特性,可通过pip install oxygent==1.0.8升级。该框架开源3个多月获1700多个Star,其将Agent等统一抽象为Oxy,开发者能灵活构建多智能体系统,有执行生命周期和四大数据作用域。它已在京东内部多个业务场景及社区开发者实践中落地,验证了可用性与可扩展性。文章还提供入门教程,解决社区常见问题,举办智能体工具创新赛,特别致谢开发者。

Chrome终于能分屏了!交互设计有点水平
文章介绍Chrome新增分屏功能,称其虽好用但有问题。与电脑操作系统及微软Edge的分屏功能相比,Chrome步骤少、选择标签页交互效率高。不过它存在一些缺陷,如地址栏对应视窗不明确,需通过视窗边框颜色确认;两组关闭按钮功能相同,设计冗余;暂未发现替换视窗功能。最后指出Chrome分屏入口好用,但交互细节待优化,还提到作品集包装应突出亮点忽略缺陷。

苹果低调发布报告,粉碎 AGI 泡沫
当下AI被大肆炒作,众多模型宣称接近AGI。苹果研究人员发表论文《思考的幻觉》,将“大型推理模型”置于可控环境测试,打破AI会思考的既有说法。研究指出,常用基准测试存在数据污染问题,于是构建逻辑谜题试验场。测试发现,模型在低、中、高复杂度任务中有不同表现,高复杂度任务下准确率骤降至零。模型还存在过度思考和思考不足问题,缺乏自我纠错和高效搜索策略。“小抄”测试表明模型无法遵循逻辑步骤,只是模式匹配。苹果研究揭示,当下AI“推理”是复杂模式匹配,并非通用智能,AGI发展时间表或需重置。

SABER: 模式切换的混合思考模型训练范式
bilibili Index - llm Team提出SABER强化学习框架,解决大语言模型链式思考推理开销大等问题。它统计基座模型推理长度划分样本预算层级,微调中模型学习在预算内推理,还加入无思考训练数据。支持四种推理模式,可灵活调节推理深度与延迟。实验显示,SABER在多任务中限制预算仍高精度推理,有平滑退化特性与良好泛化能力,如在MATH任务中,FastThink减少推理长度且提升精度,该论文被AAAI 2026收录。

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人
文章介绍了Meta技术团队和大淘宝技术研发的HRM²Avatar系统,该系统仅依赖普通智能手机单目视频输入,可实现高保真、可实时驱动、适用于移动端的3D数字人重建与渲染,已被SIGGRAPH Asia 2025接收。系统核心采用两阶段采集方式、显式衣物网格表示与基于高斯的动态细节建模,并结合面向移动端设备的高效渲染优化策略。在自构数据集和Neuman数据集上的实验表明,HRM²Avatar在视觉真实感、跨姿态一致性以及移动端实时渲染方面表现良好,消融实验验证了各模块的必要性,性能测试显示其能在移动设备上稳定实时运行。不过,该系统在复杂服饰重建精度和极端场景效果上仍有优化空间。

前端开发应了解的浏览器背后的黑科技
本文深入介绍现代浏览器核心机制。浏览器架构从单进程演进到多进程,引入沙箱和Site Isolation提升安全。进程间通过Mojo IPC协作。渲染引擎将HTML转化为像素,各阶段有优化策略。GPU合成器让动画流畅,涉及多线程和瓦片化。V8引擎通过JIT优化代码,需避免反优化。Network Service独立调度网络请求,有资源优先级和Resource Hints。遵循进程隔离、并行处理等原则,可优化浏览器性能。

Antigravity-氛围感编码之死
本文记录了 Antigravity 初体验,介绍其改变之处。当前程序员的 Vibe Coding 模式存在上下文靠人工转述、决策过程不可见、执行与验证不可追溯等问题。Antigravity 是 Agent-First IDE,实现机制跃迁。下载需从官网,安装后要完成引导配置,登录有代理和账号地区等门槛。其核心能力包括浏览器即执行环境、Playground 探索型工作空间、任务级透明度、Follow Along 上帝视角、多 Agent 并行执行。实操体验良好,当前免费但有额度限制,意味着人们要学会管理 Agent 团队。

性能突破:WebGPU + WebAssembly(WASM)技术深度解析
随着Web应用向重负载场景延伸,传统技术触及性能天花板,WebGPU与WebAssembly(WASM)协同为Web端高性能计算开辟新路径。本文介绍二者技术定位,WebGPU释放GPU算力,WASM突破JavaScript性能桎梏,二者分工协作;阐述其在实时3D、端侧AI推理等场景应用;给出共享内存、异步调度等优化策略;指出当前面临浏览器兼容性、开发门槛高等挑战;展望未来标准化、工具链优化等趋势;最后为开发者提供分阶段布局建议。

通用Agent模型Seed1.8正式发布
2025年12月18日,字节跳动正式推出通用Agent模型Seed1.8。该模型具备多模态能力,支持图文输入,可在多场景高效精准完成任务。其有三大核心特点,集多种Agent能力于一体,低延迟高效应答,能对接真实世界需求。在通用Agent能力上,它在多类真实任务和基准测试中表现出色,突破多任务并行等难点;LLM能力接近顶级通用模型;VLM多模态评测分数显著提升,图像和视频理解能力突出。未来将在性能提升、长期任务执行等方向持续迭代,部分评测数据集将开源。

声画俱全,一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布
2025年12月16日,字节跳动正式发布新一代音视频创作模型Seedance 1.5 pro。它支持音视频联合生成,在视听协同、视觉张力和叙事协调性等方面实现突破,如精准音画同步、电影级运镜控制等。该模型在影视、短剧、广告等场景展现出较好叙事与视听融合能力,能助力专业创作。评测显示,其指令遵循和音频表现突出,但运动稳定性等方面有提升空间。它采用多模态联合生成架构,未来团队将致力于更长时长叙事生成和实时端侧体验等优化。

字节内部演进实录:Redis 迁移 Valkey,以一体化破解 AI 集群规模魔咒
文章围绕字节跳动将 Redis 迁移至 Valkey 以应对 AI 集群规模问题展开。AI 业务增长使 Valkey 集群面临承重危机,如高带宽消耗、需灵活访问与高扩展、拓展数据类型等。当前 Valkey Cluster 的 Gossip 协议在大规模集群中有通信开销大、故障收敛慢、易脑裂等短板。业界与字节探索了两种中控方案,Configserver 架构管理灵活但有客户端数据访问不一致等问题;字节提出的 raft 一体化中控架构,通过 root 节点管理,优化客户端交互、保障高可用。字节推动 Redis 向 Valkey 演进并参与社区建设,未来还将丰富 Valkey 核心特性,与社区共建打破其“规模魔咒”。

NeurIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble
小红书AIGC团队在NeurIPS 2025提出布局控制生成新算法InstanceAssemble。当下文本生成图像扩散模型虽有进展,但现有布局到图像生成方法在复杂场景表现不佳,评估指标也有偏差。InstanceAssemble架构采用级联结构,分阶段处理全局文本与实例级布局,用Assemble - Attn确保局部精细控制;使用LoRA模块轻量级适配,支持多模态布局输入。同时团队构建DenseLayout基准数据集和LGS评测指标。实验显示,该算法布局对齐指标和LGS分数优,全局图像质量好,泛化能力强,且参数开销和推理耗时少。此外它兼容性好,可跨风格创作,未来有望用于多领域。

Java 设计模式:原理、框架应用与实战全解析|得物技术
文章围绕 Java 设计模式展开,先介绍其概念、核心思想、组件生命周期和七大设计原则。接着阐述三种类型模式:创建型模式分离对象创建与使用,如单例模式有饿汉式、懒汉式等实现方案,在 Spring 框架的 Bean 管理中有应用;结构型模式关注对象/类组合,像外观模式为复杂子系统提供统一接口,Spring 的 ApplicationContext 是其经典落地;行为型模式关注对象/类运行流程,以策略模式为例,可在运行时切换算法,电商支付系统和 Spring 的 ResourceLoader 都有应用。最后结合得物还价功能升级案例,展示策略模式在实战中的应用及带来的性能、扩展性等方面的提升。

入围AA总榜Top 10,Non-Reasoning Model榜单第一!KAT-Coder-Pro V1 新版本踏浪归来!
2025年12月19日消息,快手KAT - Coder - Pro V1新版本发布,迎来1210版关键迭代,聚焦Agentic Coding领域核心能力升级。在AA榜单中,其综合评分64分跻身全球总榜TOP 10,Non - Reasoning Model赛道第一。新版本在卓越Agentic交互体验、代码推理与工具调用、工具调用稳定性、前端代码生成能力四大维度优化。在AA评测中多维度性能比肩国际顶尖模型,还具极致性价比和极速响应优势。技术上发现RL训练不稳定主因是采样噪声,抑制噪声可稳定训练。目前StreamLake官方API更新,与多伙伴兼容适配,开发者可免费体验。

NeurIPS 2025 | 突破多模态推荐瓶颈:结构化频谱推理框架SSR
本文介绍快手商业化短视频模型算法团队联合USC&人大提出的多模态推荐框架SSR,该成果被NeurIPS 2025接收。当前多模态推荐面临模态噪声、语义不一致、图传播不稳定等问题,现有方法局限大。SSR将频域提升为表示与推理空间,其架构含四阶段:分解分离语义粒度,调制学习频带可靠性,融合推理频带交互,对齐统一跨模态语义。实验显示,SSR在三个Amazon数据集达SOTA,冷启动场景表现出色。未来可与大模型结合、探索高效频谱基学习、扩展到动态推荐。

图片分类业务推理性能探索
文章复盘了色情图片分类模型从线下到线上推理服务的性能优化过程。起初采用PyTorch+Flask方案,单张图片端到端平均延迟53.64ms,且GPU资源利用率低。优化分三幕七个阶段:第一幕聚焦GPU推理加速,依次使用ONNX和TensorRT,将推理耗时从32.87ms降至10.52ms,瓶颈转向CPU;第二幕针对CPU预处理和I/O,用OpenCV替代Pillow,尝试Base64传输失败后采用字节流传输,稳定服务端延迟至16.02ms;第三幕通过批处理释放GPU并行能力,处理8张图片平均延迟降至8.34ms,实现超6.4倍性能提升。最后总结了数据驱动、系统性思维和拥抱批处理三条经验,并提出未来探索方向。

火山引擎 Force 大会发布 veRoCE 传输协议!
2025年12月18日火山引擎Force大会上,字节跳动发布自研高性能RDMA传输协议veRoCE。随着大语言模型规模扩张,传统RoCEv2在组网规模、带宽、时延上无法满足大规模GPU集群通信需求,且存在依赖PFC无损网络、不支持多路径传输两大局限。veRoCE针对这些不足创新,有多路径与乱序优化、高效重传机制、多路径拥塞控制等特性,还注重兼容性和易用性。典型测试中,它让LLM训练速度、AlltoAll通信吞吐提升,丢包场景表现也更好。字节跳动正与多家厂商合作,veRoCE已部分验证试用,欢迎更多厂商参与完善生态。

【AI地图 Tech说】第五期:一文解码百度地图LD-VLG端到端地图生成大模型
文章介绍百度地图LD - VLG端到端多模态地图生成大模型。现实中地图更新慢,而该模型可自动理解道路、识别变化并生成最新车道级地图。它以海量观测数据和LD车道级地图为输入,经多个模型模块输出车道级矢量地图,提升制图自动化率与更新时效。LD地图生成与更新有生成、差分、修改三个核心任务,技术历经规则驱动、模型驱动、多模态大模型和端到端生成大模型四个阶段。LD - VLG采用渐进式训练策略,包括基座预训练、多任务微调、强化学习与数据飞轮。该模型变革车道级地图数据生产模式,已支撑全国多地地图数据生成,还有多个落地案例。

人,你可以一句话让龙猫p所有图
文章介绍了LongCat的功能及优势。它能P图,支持文生图、图生图,还具备视频通话、深度思考、实时翻译等功能,有专业团队且业务广泛可随时接单。能帮助用户告别高成本配图烦恼,用户在面试慌神、学习卡壳、遇到宠物迷惑行为等情况时,可开启视频通话把麻烦事交给龙猫。目前,其视频通话、深度思考和对话作图已上线,用户可24小时随时使用。

工具产品中的隐性引导
本文围绕工具产品中的隐性引导展开。先介绍显性引导强占用户注意力、破坏心流,而隐性引导吸引注意力并嵌入工作流。关注隐性引导是因工具功能专业性高、数量大、使用链路非线性,且传统引导易削弱用户自主感、打断工作流。设计师可通过多种方式定位需隐性引导的时刻,如界面信息焦点与任务意图不匹配、存在更优用法或步骤执行区域远等情况。还介绍三种隐性引导设计手段:强引导用限制创造唯一合法路径;中引导用强烈聚焦元素变化吸引注意力;弱引导提供轻量智能机会型提示。最后提醒设计时关注用户可能的迷茫,用克制明确符号引导。

《从30%到90%+:我们如何实现多语言UI自动化检测的Token大幅削减》
文章围绕多语言UI自动化检测中Token大幅削减展开。国际化多语言检测的UI自动化任务存在无意义token消耗,为降成本,目标是降低30 - 50%的token消耗。介绍系统调用流程,指出AI Token消耗源于系统提示词、用户输入文本、外部知识库和历史会话。提出优化方案,如精简系统提示词、优化用户输入文本处理(避免重复调用、检测文本变化、聚合去重、过滤无意义数据)、高效引用外部知识库、合理使用历史会话。经优化,随机数据显示节省token比例达90 +%,实际每月用量大幅下降,且Token降低未影响检测结果准确性。目前正探索为词条引入唯一标识和超链接以提升问题处理效率。

2025: The State of Generative AI in the Enterprise
本文是2025年企业生成式AI现状报告。虽有投资过热担忧,但企业AI是史上扩张最快软件类别,2023 - 2025年从17亿美元涨至37亿。企业支出流向应用层居多,且倾向购买而非自建AI方案,AI买家转化率更高。产品主导增长(PLG)模式下,个人用户推动AI采用速度是传统软件4倍。应用层市场达190亿美元,部门AI中编码是“杀手级用例”,垂直AI里医疗保健领先,水平AI中副驾驶支出占比大。基础设施层支出180亿美元,大语言模型(LLM)市场中Anthropic领先,开源模型企业采用滞后。最后对2026年作出预测,如AI在编程任务超人类、可解释性和治理成主流等。

State of AI
本文基于OpenRouter平台超100万亿token数据,对大语言模型(LLM)使用情况展开实证研究。2024年o1模型发布推动领域从单步模式生成转向多步推理。研究发现,开源模型使用显著增加,中国开源模型发展迅速;推理模型占比超一半,工具调用使用上升;编程和角色扮演是主要应用场景;用户留存存在“灰姑娘玻璃鞋”效应。LLM生态呈多元化,推理方式向多步和工具集成转变,地理分布更分散,未来需关注实际使用动态,进行针对性改进和创新。

<time> element search enginesThe
文章讨论了 HTML 中 <time> 元素实际作用。常见 UI 模式里,人们会对“X 小时前”做不同处理,如设为永久链接、加提示框。作为语义化标签,<time> 可精确表达时间,但实际中除渲染外,浏览器和辅助技术很少利用它,虽有 8% 页面使用该元素。不过,屏幕阅读器 NVDA 和 Narrator 能读出时间戳。<time> 主要用于搜索引擎显示搜索结果日期片段,但谷歌无具体指南,其文档推荐用 Schema.org 字段。理论上 <time> 用途多,但目前是早期 HTML5 的遗留物,作者仍会使用。

An Accessible Guide to WCAG 3.3.9: Going for Gold
文章围绕WCAG 3.3.9展开,对比WCAG 3.3.8,3.3.9是更高级的无障碍认证标准。WCAG定义了A、AA、AAA三个合规级别,3.3.8对应AA级,3.3.9对应更严格的AAA级。3.3.9移除了3.3.8中的例外情况,如禁止对象识别和个人内容识别测试。文章指出当前开发中存在视觉验证码、安全图像、分割字段输入等易失败场景。但也提到密码若有密码管理器辅助则允许。解决方案包括使用通行证、社交登录、魔法链接、隐形安全和二维码等。还给出审核清单,并建议使用专家构建的身份平台,追求3.3.9标准能带来更好的用户体验。

The JavaScript Bundler Grand Prix
文章围绕 JavaScript 打包工具展开。开发者一直追求缩短打包时间,但进展缓慢,近期多家公司对打包工具进行升级。JS 模块打包工具能合并代码及依赖,虽有团队投入大量资源提升打包速度,但用户体验未受足够重视。市场上有多种打包工具,包括老牌和新一代产品,且呈现出开源社区项目与厂商支持工具并存的局面,新工具多采用 Rust 以提升速度。不过,基准测试结果不可靠,且版本更新频繁。当下打包工具追求速度原因是 JS 产物过大,未来的竞争将从追求速度转向优化产物大小、消除无用代码,以提升用户体验,这需要打包工具和编译器更紧密合作。

The Anatomy of LCP – A Deep Dive into Sub-Parts
文章围绕LCP(Largest Contentful Paint)的子部分展开深入剖析。LCP是衡量页面最有意义内容可见时间的指标,优化它能让用户尽早看到主要内容。LCP由TTFB、资源加载延迟、资源加载时长和元素渲染延迟四个子部分构成,各部分问题对应不同原因和解决办法。如TTFB受后端、CDN或源延迟影响,可通过CDN缓存等优化;资源加载延迟可能因LCP资源发现晚,可利用早期提示等解决。文章还介绍了浏览器加载页面的过程及LCP各子部分的测量方式,并说明了借助DevTools和RUM获取这些子部分数据的方法,强调拆分LCP子部分有助于精准定位并解决瓶颈问题。

Surviving the RAM Squeeze: Efficiency Tips for JavaScript Developers
因AI数据中心对内存需求激增,内存变得昂贵,开发者需优化JavaScript应用内存使用。文章提出策略:一是避免不必要工作,如用find替代filter找单元素、用reduce合并filter和map操作,且不害怕合理修改对象;二是尽可能延迟计算,用Iterators及其辅助方法按需处理数据,避免中间数组。最后强调优化不仅省内存,还能提升性能和用户体验。

Introducing RSC Explorer
文章介绍了RSC Explorer工具,它用于展示React Server Components(RSC)协议的工作原理。RSC协议是React序列化和反序列化React树的格式,因是实现细节未详细文档化,开发者难了解其底层。RSC Explorer可模拟RSC通信,用React读写RSC协议的包构建,输出真实。文中通过Hello World、异步组件、计数器、表单动作、路由刷新等示例展示其功能,还提及更多示例如分页、错误处理等,支持嵌入代码片段和分享链接,且完全客户端运行,代码开源。

Codex 正在推动开源 AI 模型的训练与发布
文章介绍了 Codex 推动开源 AI 模型训练与发布的方法。Codex 作为编码代理,借助 Hugging Face Skills 仓库参与开源模型训练、评估与发布全流程。使用前需准备 Hugging Face 账户、token,安装配置 Codex 和 Hugging Face Skills,连接 Hugging Face。文中给出完整示例,向 Codex 发起微调实验请求,它会生成训练配置,验证数据集,提交前确认信息。训练中实时更新报告,可通过报告追踪进度。训练完成后,模型上传到 Hugging Face Hub,还能转换为 GGUF 格式用于本地部署。此外,还说明了不同规模模型的硬件选择和成本,最后鼓励读者尝试更多操作,且该扩展开源可定制。

AI Next 播客 | 对话郭百宁&边江:当AI学会理解世界,从世界模型到具身智能,它还缺什么?
《AI Next》第二期播客探讨具身智能。微软郭百宁、边江博士认为,当前AI对物理规律理解有限,虽有进展但未达通用智能。AI理解世界需感知物理规律、预测因果关系、主动适应环境变化等能力,可通过行动学习提升效率。世界模型因算法和算力发展受关注,VLA模型面临数据稀少难题。具身智能与传统机器人范式不同,追求自主性。游戏适合研究世界模型。实现通用具身智能关键在于数据和新学习方法,未来三到五年或在家庭服务、商业服务、工厂特定任务等场景突破。

Web 开发指向标|开发者工具 AI 辅助功能的 5 大实践应用
文章介绍 Chrome 开发者工具中 AI 辅助功能的 5 大实践应用。一是了解布局,可向 AI 提问元素布局情况以理解呈现方式及属性原因;二是结对编程,遇 CSS 属性选择困境时,向 AI 阐述目标可获解决方案;三是无障碍功能顾问,借助 AI 能得替换 HTML 元素、使用 aria - * 属性和优化颜色对比度等专业建议;四是彰显个性,让 AI 为网页设计注入新意;五是扮演“飞机工程师”,在 Chrome 开发者工具 Hangar 中利用 AI 解决更多样式问题。文章希望这些内容助开发者打开高效开发大门。
