arXiv AI 每日精选

233 篇论文
🤖人工智能(综合)(100篇)
cs.AI

#1MAGMA:基于多图的AI智能体智能记忆架构

MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents

记忆增强生成(MAG)通过外部记忆扩展大型语言模型以支持长上下文推理,但现有方法在很大程度上依赖于整体记忆存储上的语义相似性,将时间、因果和实体信息混在一起。这种设计限制了可解释性以及查询意图与检索证据之间的对齐,导致推理准确性欠佳。在本文中,我们提出了MAGMA,这是一种多图智能体记忆架构,它跨正...

Dongming Jiang, Yi Li 等 4 人
2026/01/06
cs.CLcs.AI

#2Multi-RADS 合成放射学报告数据集以及41种开放权重和专有语言模型的头对头基准测试

Multi-RADS Synthetic Radiology Report Dataset and Head-to-Head Benchmarking of 41 Open-Weight and Proprietary Language Models

背景:报告和数据系统(RADS)使放射学风险沟通标准化,但由于指南复杂、输出格式限制以及跨RADS框架和模型大小的基准测试有限,从叙述性报告中自动分配RADS具有挑战性。目的:创建RXL-RADSet(一个经过放射科医生验证的合成多RADS基准),并比较开放权重小型语言模型(SLMs)与专有模型在R...

Kartik Bose, Abhinandan Kumar 等 25 人
2026/01/06
cs.SDcs.AI

#3声呐时刻:音频语言模型在音频地理定位中的基准测试

The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization

地理定位旨在推断给定信号的地理来源。在计算机视觉领域,地理定位已成为组合推理的一项高要求基准,并且与公共安全相关。相比之下,音频地理定位的进展因缺乏高质量的音频-位置对而受到限制。为解决这一差距,我们引入AGL1K,这是首个面向音频语言模型(ALMs)的音频地理定位基准,覆盖72个国家和地区。为从众...

Ruixing Zhang, Zihan Liu 等 5 人
2026/01/06

还有 97 篇论文

💬计算语言学(90篇)
cs.CLcs.AI

#1Multi-RADS 合成放射学报告数据集以及41种开放权重和专有语言模型的头对头基准测试

Multi-RADS Synthetic Radiology Report Dataset and Head-to-Head Benchmarking of 41 Open-Weight and Proprietary Language Models

背景:报告和数据系统(RADS)使放射学风险沟通标准化,但由于指南复杂、输出格式限制以及跨RADS框架和模型大小的基准测试有限,从叙述性报告中自动分配RADS具有挑战性。目的:创建RXL-RADSet(一个经过放射科医生验证的合成多RADS基准),并比较开放权重小型语言模型(SLMs)与专有模型在R...

Kartik Bose, Abhinandan Kumar 等 25 人
2026/01/06
cs.IRcs.AIcs.CL

#2微调小型语言模型作为高效的企业搜索相关性标注器

Fine-tuning Small Language Models as Efficient Enterprise Search Relevance Labelers

在企业搜索中,大规模构建高质量数据集仍是一项核心挑战,原因在于获取标注数据存在困难。为解决这一挑战,我们提出一种高效方法来微调小型语言模型(SLMs)以实现准确的相关性标注,从而实现高通量、特定领域的标注,其质量可与最先进的大型语言模型(LLMs)相媲美,甚至更优。为克服企业领域缺乏高质量且可访问数...

Yue Kang, Zhuoyi Huang 等 22 人
2026/01/06
cs.CLcs.AI

#3UltraLogic:通过大规模数据合成和双极浮点奖励增强LLM推理

UltraLogic: Enhancing LLM Reasoning through Large-Scale Data Synthesis and Bipolar Float Reward

尽管大型语言模型(LLMs)在自然语言处理方面展现出巨大潜力,但需要多步骤逻辑、规划和验证的复杂通用推理仍是一个关键瓶颈。虽然基于可验证奖励的强化学习(RLVR)在特定领域取得了成功,但该领域缺乏用于通用推理的大规模、高质量且难度校准的数据。为解决这一问题,我们提出了UltraLogic框架,该框架...

Yile Liu, Yixian Liu 等 10 人
2026/01/06

还有 87 篇论文

🧠机器学习(68篇)
cs.LGcs.AIcs.CY

#1图不确定性下的反事实公平性

Counterfactual Fairness with Graph Uncertainty

评估机器学习(ML)模型偏差是构建可信且稳健的机器学习系统的关键。反事实公平性(CF)审计允许在因果框架下测量机器学习模型的偏差,但其结论依赖于单一因果图,而在现实场景中,该因果图很少能被确切知晓。我们提出了带有图不确定性的反事实公平性(CF-GU),这是一种将因果图指定的不确定性纳入反事实公平性的...

Davi Valério, Chrysoula Zerva 等 5 人
2026/01/06
cs.CVcs.AIcs.LG

#2AnatomiX:一种用于胸部X光片解读的解剖学感知型接地多模态大型语言模型

AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation

多模态医疗大型语言模型在胸部X光片解读方面已展现出令人瞩目的进展,但在空间推理和解剖学理解方面仍面临挑战。尽管现有的锚定技术提高了整体性能,但它们往往无法建立真正的解剖学对应关系,导致在医疗领域出现错误的解剖学理解。为解决这一差距,我们引入AnatomiX,这是一种专为基于解剖学的胸部X光片解读而明...

Anees Ur Rehman Hashmi, Numan Saeed 等 3 人
2026/01/06
cs.LGcs.AI

#3去中心化自回归生成

Decentralized Autoregressive Generation

我们对自回归生成的去中心化进行了理论分析。我们通过将概率生成速度表示为专家流的线性组合,定义了去中心化离散流匹配目标。我们还进行了实验,证明了跨多种基准的多模态语言模型的去中心化和中心化训练设置之间的等价性。具体来说,我们比较了两种不同的范式:LLaVA和InternVL 2.5-1B,后者使用固定...

Stepan Maschan, Haoxuan Qu 等 3 人
2026/01/06

还有 65 篇论文

👁️计算机视觉(58篇)
cs.CVcs.AI

#1UniCorn:通过自我生成监督实现自我改进的统一多模态模型

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

尽管统一多模态模型(UMMs)在跨模态理解方面取得了显著成功,但在利用这种内部知识进行高质量生成方面仍存在巨大差距。我们将这种差异形式化为传导性失语症,即模型能够准确解释多模态输入,但难以将这种理解转化为忠实且可控的合成内容。为解决这一问题,我们提出了UniCorn,这是一个简单而优雅的自我改进框架...

Ruiyan Han, Zhen Fang 等 12 人
2026/01/06
cs.CVcs.AIcs.LG

#2AnatomiX:一种用于胸部X光片解读的解剖学感知型接地多模态大型语言模型

AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation

多模态医疗大型语言模型在胸部X光片解读方面已展现出令人瞩目的进展,但在空间推理和解剖学理解方面仍面临挑战。尽管现有的锚定技术提高了整体性能,但它们往往无法建立真正的解剖学对应关系,导致在医疗领域出现错误的解剖学理解。为解决这一差距,我们引入AnatomiX,这是一种专为基于解剖学的胸部X光片解读而明...

Anees Ur Rehman Hashmi, Numan Saeed 等 3 人
2026/01/06
cs.NIcs.AIcs.CL+1

#3多模态数据增强的基础模型在无线网络预测与控制中的应用:综述

Multi-Modal Data-Enhanced Foundation Models for Prediction and Control in Wireless Networks: A Survey

基础模型(FMs)被认为是一项变革性突破,已开始重塑学术界和工业界人工智能(AI)的未来。将基础模型集成到无线网络中,有望开发出通用人工智能代理,能够处理各种网络管理请求以及涉及多模态数据的高度复杂的无线相关任务。受这些想法的启发,本文讨论了基础模型,特别是多模态基础模型在无线网络中的应用。我们重点...

Han Zhang, Mohammad Farzanullah 等 6 人
2026/01/06

还有 55 篇论文

🦾机器人学(16篇)
cs.CLcs.AIcs.RO

#1具身人工智能数据集中有限的语言多样性

Limited Linguistic Diversity in Embodied AI Datasets

语言在视觉-语言-动作(VLA)模型中扮演着关键角色,然而用于训练和评估这些系统的数据集的语言特征记录仍然不足。在本研究中,我们对几个广泛使用的VLA语料库进行了系统性数据集审计,旨在描述这些数据集实际包含何种类型的指令以及它们提供了多少语言多样性。我们从互补维度量化指令语言,包括词汇多样性、重复与...

Selma Wanna, Agnes Luhtaru 等 7 人
2026/01/06
cs.ROcs.AIcs.LG

#2PiDR:自主平台的物理信息惯性航位推算

PiDR: Physics-Informed Inertial Dead Reckoning for Autonomous Platforms

完全自主的基本要求是在缺乏外部数据(如GNSS信号或视觉信息)的情况下维持精确导航的能力。在这些具有挑战性的环境中,平台必须完全依赖惯性传感器,从而实现纯惯性导航。然而,在现实场景中,惯性传感器固有的噪声和其他误差项会导致导航解随时间漂移。尽管传统的深度学习模型已成为惯性导航的一种可能方法,但它们本...

Arup Kumar Sahoo, Itzik Klein
2026/01/06
cs.ROcs.AIcs.LG

#3学习使用视角不变的潜在动作进行稳健行动

Learning to Act Robustly with View-Invariant Latent Actions

基于视觉的机器人策略往往难以应对即使是微小的视角变化,这凸显了对视角不变视觉表示的需求。在现实环境中,视角变化不可避免,可能会显著影响策略性能,这一挑战更为突出。现有方法通常从场景级别的多视图观测中学习不变性,但此类方法依赖视觉外观,未能融入对鲁棒泛化至关重要的物理动力学。我们提出视角不变潜在动作(...

Youngjoon Jeong, Junha Chun 等 3 人
2026/01/06

还有 13 篇论文

📊统计机器学习(6篇)
cs.LGcs.AIcs.CL+2

#1Chronicals:一个高性能LLM微调框架,比Unsloth提速3.51倍

Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth

大型语言模型微调受内存瓶颈限制:一个70亿参数的模型需要84GB内存——14GB用于权重,14GB用于梯度,56GB用于FP32优化器状态——甚至超过了A100-40GB的容量。我们提出了Chronicals,这是一个开源训练框架,通过四项协同优化实现了比Unsloth快3.51倍的速度提升:(1)...

Arjun S. Nair
2026/01/06
stat.MLcs.LGeess.IV

#2从含噪和不完整数据中进行自监督学习

Self-Supervised Learning from Noisy and Incomplete Data

科学和工程领域的许多重要问题涉及从带噪声和/或不完整的观测数据中推断信号,其中观测过程是已知的。历史上,人们通过手工设计的正则化方法(如稀疏性、总变差)来解决这一问题,以获得有意义的估计。近年来,数据驱动方法通常通过直接从真实信号示例和相关观测数据中学习求解器,从而提供更好的解决方案。然而,在许多实...

Julián Tachella, Mike Davies
2026/01/06
cs.LGeess.IVstat.ML

#3PET-TURTLE:用于不平衡数据聚类的深度无监督支持向量机

PET-TURTLE: Deep Unsupervised Support Vector Machines for Imbalanced Data Clusters

基础视觉、音频和语言模型通过其潜在表征实现下游任务的零样本性能。近年来,使用深度学习方法对数据组结构进行无监督学习已受到广泛关注。TURTLE 是一种最先进的深度聚类算法,它通过交替更新标签和超平面、最大化超平面间隔(类似于支持向量机(SVM)的方式),在无监督的情况下揭示数据标签。然而,TURTL...

Javier Salazar Cavazos
2026/01/06

还有 3 篇论文

🧬神经网络与进化计算(2篇)
q-bio.NCcs.AIcs.CL+2

#1生物约束尺度不变深度网络中的层级时间感受野和零样本时间尺度泛化

Hierarchical temporal receptive windows and zero-shot timescale generalization in biologically constrained scale-invariant deep networks

人类认知在嵌套时间尺度上整合信息。虽然大脑皮层表现出层级化的时间感受野(TRW),但局部回路通常显示出异质的时间常数。为解决这一矛盾,我们基于尺度不变的海马时间细胞,在模拟语言层级结构(例如,“字母”组成“单词”)的语言分类任务上训练了具有生物学约束的深度网络。首先,使用前馈模型(SITHCon),...

Aakash Sarkar, Marc W. Howard
2026/01/06
cs.LGcs.NE

#2从肌肉到文本:借助MyoText通过手指分类和基于Transformer的解码实现表面肌电信号到文本的转换

From Muscle to Text with MyoText: sEMG to Text via Finger Classification and Transformer-Based Decoding

表面肌电图(sEMG)为解码肌肉活动提供了直接的神经接口,并为可穿戴和混合现实系统中的无键盘文本输入奠定了有前景的基础。以往的sEMG到文本研究主要集中于直接从sEMG信号中识别字母,这是将肌肉活动转化为文本的重要第一步。在此基础上,我们提出了MyoText,这是一个分层框架,通过基于生理学的中间阶...

Meghna Roy Chowdhury, Shreyas Sen 等 3 人
2026/01/06
⚙️系统与控制(0篇)
📄
暂无论文
🎯博弈论与AI(0篇)
📄
暂无论文