arXiv AI 每日精选

442 篇论文,9 个分类
时光机
🤖人工智能(综合)(180篇)
cs.CVcs.AIcs.LG

#1Stitch:多模态扩散Transformer中的无训练位置控制

Stitch: Training-Free Position Control in Multimodal Diffusion Transformers

近年来,文本到图像(T2I)生成模型发展迅速,但准确捕捉“在……上方”或“在……右侧”等空间关系仍是一个持续存在的挑战。早期方法通过外部位置控制改进了空间关系遵循。然而,随着架构不断发展以提升图像质量,这些技术与现代模型不再兼容。我们提出Stitch,这是一种无需训练的方法,通过自动生成的边界框将外...

Jessica Bader, Mateusz Pach 等 5 人
2025/09/30
cs.ROcs.AIcs.LG+2

#2OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和...

Lujie Yang, Xiaoyu Huang 等 9 人
2025/09/30
cs.AI

#3拓展视野:利用测量树拓宽人工智能的测量与评估

Branching Out: Broadening AI Measurement and Evaluation with Measurement Trees

本文介绍了“测量树”,这是一类新型指标,旨在将各种构念组合成可解释的多级别被测量对象表示。与产生单一值、向量、曲面或类别的传统指标不同,测量树生成层次有向图,其中每个节点通过用户定义的聚合方法汇总其子节点。为响应近期扩大人工智能系统评估范围的呼吁,测量树提高了指标透明度,并促进了异构证据的整合,例如...

Craig Greenberg, Patrick Hall 等 5 人
2025/09/30

还有 177 篇论文

🧠机器学习(179篇)
cs.CVcs.AIcs.LG

#1Stitch:多模态扩散Transformer中的无训练位置控制

Stitch: Training-Free Position Control in Multimodal Diffusion Transformers

近年来,文本到图像(T2I)生成模型发展迅速,但准确捕捉“在……上方”或“在……右侧”等空间关系仍是一个持续存在的挑战。早期方法通过外部位置控制改进了空间关系遵循。然而,随着架构不断发展以提升图像质量,这些技术与现代模型不再兼容。我们提出Stitch,这是一种无需训练的方法,通过自动生成的边界框将外...

Jessica Bader, Mateusz Pach 等 5 人
2025/09/30
cs.ROcs.AIcs.LG+2

#2OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和...

Lujie Yang, Xiaoyu Huang 等 9 人
2025/09/30
cs.AIcs.LGcs.RO

#3TimeRewarder:通过逐帧时间距离从被动视频中学习密集奖励

TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance

设计密集奖励对于强化学习(RL)至关重要,但在机器人技术中,这通常需要大量的人工工作且缺乏可扩展性。一种有前景的解决方案是将任务进展视为密集奖励信号,因为它量化了动作随时间推动系统向任务完成迈进的程度。我们提出了TimeRewarder,这是一种简单但有效的奖励学习方法,通过对帧对之间的时间距离进行...

Yuyang Liu, Chuan Wen 等 5 人
2025/09/30

还有 176 篇论文

👁️计算机视觉(138篇)
cs.CVcs.AIcs.LG

#1Stitch:多模态扩散Transformer中的无训练位置控制

Stitch: Training-Free Position Control in Multimodal Diffusion Transformers

近年来,文本到图像(T2I)生成模型发展迅速,但准确捕捉“在……上方”或“在……右侧”等空间关系仍是一个持续存在的挑战。早期方法通过外部位置控制改进了空间关系遵循。然而,随着架构不断发展以提升图像质量,这些技术与现代模型不再兼容。我们提出Stitch,这是一种无需训练的方法,通过自动生成的边界框将外...

Jessica Bader, Mateusz Pach 等 5 人
2025/09/30
cs.CVcs.AI

#2学习具有SIM(3)等变性的可泛化形状补全

Learning Generalizable Shape Completion with SIM(3) Equivariance

3D形状补全方法通常假设扫描数据已预对齐到规范坐标系。这会泄露姿态和尺度线索,网络可能利用这些线索记忆绝对位置而非推断内在几何结构。当真实数据中不存在这种对齐时,性能会大幅下降。我们认为,稳健的泛化能力需要对相似变换群SIM(3)具有架构等变性,这样模型才能对姿态和尺度保持无关性。遵循这一原则,我们...

Yuqing Wang, Zhaiyu Chen 等 3 人
2025/09/30
cs.LGcs.AIcs.CV+1

#3先见之明:揭秘语言预训练中的LLM视觉先验

Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

大型语言模型(LLMs)尽管仅在文本上进行训练,却出人意料地发展出丰富的视觉先验。这些先验使得通过相对少量的多模态数据就能解锁视觉任务的潜在视觉能力,在某些情况下,甚至无需见过图像就能执行视觉任务。通过系统分析,我们揭示视觉先验——即在语言预训练过程中获得的关于视觉世界的隐含、涌现知识——由具有独特...

Junlin Han, Shengbang Tong 等 7 人
2025/09/30

还有 135 篇论文

💬计算语言学(106篇)
cs.CLcs.AI

#1大规模搜索难以翻译的测试示例

Searching for Difficult-to-Translate Test Examples at Scale

自然语言处理模型需要具有足够挑战性的测试数据。一个示例的难度与其来源主题(“种子主题”)相关。主题与其实例难度之间的关系本质上是随机的:一个关于困难主题的示例可能碰巧很容易,反之亦然。在互联网的规模下,存在数万个潜在主题,通过在所有主题上抽取和评估大量示例来找到最困难的主题在计算上是不可行的。我们将...

Wenda Xu, Vilém Zouhar 等 6 人
2025/09/30
cs.CLcs.AIcs.LG

#2门洛:从偏好到精通——评估和建模47种语言的类母语质量

MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

确保大型语言模型(LLM)在多种语言中的类母语响应质量具有挑战性。为解决此问题,我们引入MENLO,这是一个基于受众设计启发机制,将类母语响应质量评估操作化的框架。利用MENLO,我们创建了一个包含6,423个人工注释的提示-响应偏好对的数据集,涵盖47种语言变体中具有高注释者间一致性的四个质量维度...

Chenxi Whitehouse, Sebastian Ruder 等 8 人
2025/09/30
cs.CLcs.AI

#3解构大型语言模型生成的翻译基准中的自我偏见

Deconstructing Self-Bias in LLM-generated Translation Benchmarks

随着大型语言模型(LLMs)开始在现有基准测试中饱和,使用LLMs创建自动化基准测试(LLM作为基准测试)已成为一种可扩展的替代方案,以替代缓慢且昂贵的人工整理。虽然这些生成的测试集有潜力以低成本对模型进行排名,但我们展示了一个关键缺陷。LLM生成的基准测试系统性地偏向创建该基准测试的模型,它们在低...

Wenda Xu, Sweta Agrawal 等 5 人
2025/09/30

还有 103 篇论文

🦾机器人学(28篇)
cs.ROcs.AIcs.LG+2

#1OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和...

Lujie Yang, Xiaoyu Huang 等 9 人
2025/09/30
cs.AIcs.LGcs.RO

#2TimeRewarder:通过逐帧时间距离从被动视频中学习密集奖励

TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance

设计密集奖励对于强化学习(RL)至关重要,但在机器人技术中,这通常需要大量的人工工作且缺乏可扩展性。一种有前景的解决方案是将任务进展视为密集奖励信号,因为它量化了动作随时间推动系统向任务完成迈进的程度。我们提出了TimeRewarder,这是一种简单但有效的奖励学习方法,通过对帧对之间的时间距离进行...

Yuyang Liu, Chuan Wen 等 5 人
2025/09/30
cs.CLcs.AIcs.CV+2

#3OceanGym:水下具身智能体的基准环境

OceanGym: A Benchmark Environment for Underwater Embodied Agents

我们介绍OceanGym,这是首个面向海洋水下具身智能体的综合基准,旨在推动人工智能在最具挑战性的现实环境之一中的发展。与陆地或空中领域不同,水下环境存在极端的感知和决策挑战,包括低能见度、动态洋流等,使得智能体的有效部署异常困难。OceanGym包含八个逼真的任务领域和一个由多模态大型语言模型(M...

Yida Xue, Mingjun Mao 等 12 人
2025/09/30

还有 25 篇论文

📊统计机器学习(19篇)
cs.NEcs.AIcs.LG+1

#1龙宝宝:Transformer与大脑模型之间缺失的一环

The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain

自约翰·冯·诺依曼和艾伦·图灵以来,计算系统与大脑之间的关系一直是开创性理论家的灵感来源。均匀、无标度的生物网络(如大脑)具有强大的特性,包括随时间推移进行泛化,这是机器学习在实现通用推理模型道路上的主要障碍。我们提出了“龙雏”(BDH),这是一种新的大型语言模型架构,它基于由n个局部相互作用的神经...

Adrian Kosowski, Przemysław Uznański 等 5 人
2025/09/30
math.FAcs.AIcs.LG+3

#2神经网络和算子的向量值再生核巴拿赫空间

Vector-Valued Reproducing Kernel Banach Spaces for Neural Networks and Operators

最近,人们对表征神经网络背后的函数空间越来越感兴趣。虽然浅层和深层标量值神经网络已与标量值再生核巴拿赫空间(RKBS)相关联,但在RKBS框架下,$\mathbb{R}^d$值神经网络和神经算子模型的理解仍较为有限。为解决这一空白,我们提出了向量值RKBS(vv-RKBS)的一般定义,该定义内在地包...

Sven Dummer, Tjeerd Jan Heeringa 等 3 人
2025/09/30
cs.LGcs.AIstat.ML

#3简单生存老虎机问题中的沙袋策略

Sandbagging in a Simple Survival Bandit Problem

评估前沿人工智能系统的安全性是一个日益重要的问题,有助于衡量此类模型的能力并在部署前识别风险。然而,人们已经认识到,如果人工智能代理意识到自己正在被评估,它们可能会故意隐藏危险能力,或在安全相关任务中故意表现出次优性能,以便被释放并避免被停用或重新训练。这种策略性欺骗——通常被称为“沙袋行为”——可...

Joel Dyer, Daniel Jarne Ornia 等 5 人
2025/09/30

还有 16 篇论文

⚙️系统与控制(7篇)
cs.ROcs.AIcs.LG+2

#1OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和...

Lujie Yang, Xiaoyu Huang 等 9 人
2025/09/30
cs.LGcs.AIcs.SY+1

#2基于Transformer的BiGAN在PMU数据中时空异常的无监督检测

Unsupervised Detection of Spatiotemporal Anomalies in PMU Data Using Transformer-Based BiGAN

确保电网弹性需要及时且无监督地检测同步相量数据流中的异常。我们提出了T-BiGAN,这是一种新颖的框架,它将窗口注意力Transformer集成到双向生成对抗网络(BiGAN)中以应对这一挑战。其自注意力编码器-解码器架构捕获电网中复杂的时空依赖关系,而联合判别器则强制执行循环一致性,使学习到的潜在...

Muhammad Imran Hossain, Jignesh Solanki 等 3 人
2025/09/30
eess.SYcs.LGcs.SY+1

#3通过时滞自适应神经算子近似预测器实现含未知时滞非线性系统的镇定

Stabilization of nonlinear systems with unknown delays via delay-adaptive neural operator approximate predictors

本文为非线性系统延迟自适应控制中的近似预测器建立了首个严格稳定性保证,解决了无法获得精确预测器的实际应用中的关键挑战。我们分析了两种场景:(i)当驱动输入可直接测量时,以及(ii)当驱动输入在线估计时。对于可测量输入的情况,我们证明了半全局实用渐近稳定性,其显式边界与近似误差$\epsilon$成正...

Luke Bhan, Miroslav Krstic 等 3 人
2025/09/30

还有 4 篇论文

🧬神经网络与进化计算(4篇)
cs.NEcs.AIcs.LG+1

#1龙宝宝:Transformer与大脑模型之间缺失的一环

The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain

自约翰·冯·诺依曼和艾伦·图灵以来,计算系统与大脑之间的关系一直是开创性理论家的灵感来源。均匀、无标度的生物网络(如大脑)具有强大的特性,包括随时间推移进行泛化,这是机器学习在实现通用推理模型道路上的主要障碍。我们提出了“龙雏”(BDH),这是一种新的大型语言模型架构,它基于由n个局部相互作用的神经...

Adrian Kosowski, Przemysław Uznański 等 5 人
2025/09/30
cs.LGcs.AIcs.NE

#2单通道脑电图中的实时噪声检测与分类:一种针对肌电、白噪声和眼电伪影的轻量级机器学习方法

Real-time Noise Detection and Classification in Single-Channel EEG: A Lightweight Machine Learning Approach for EMG, White Noise, and EOG Artifacts

在现实环境中,脑电图(EEG)伪影检测面临诸多重大挑战,例如多通道方法存在计算效率低下的问题,对同步噪声的鲁棒性较差,以及深度学习模型在准确性和复杂性之间需要进行权衡。我们提出了一种混合频谱 - 时间框架,用于单通道EEG中眼电(EOG)、肌电(EMG)和白噪声伪影的实时检测与分类。与其他方法不同,...

Hossein Enshaei, Pariya Jebreili 等 3 人
2025/09/30
cs.AIcs.ARcs.ET+1

#3CIMNAS:内存计算感知神经架构搜索联合框架

CIMNAS: A Joint Framework for Compute-In-Memory-Aware Neural Architecture Search

为了在人工智能(AI)应用的基于存内计算(CIM)的神经网络加速器中最大化硬件效率和性能准确性,共同优化软件和硬件设计参数至关重要。由于参数数量庞大且相互依赖关系复杂,手动调优不切实际。为了有效自动化基于CIM的神经网络加速器的设计和优化,可以应用硬件感知神经架构搜索(HW-NAS)技术。本研究介绍...

Olga Krestinskaya, Mohammed E. Fouda 等 4 人
2025/09/30

还有 1 篇论文

🎯博弈论与AI(1篇)
cs.GT

#1通过单比特反馈实现博弈中的帕累托最优

Achieving Pareto Optimality in Games via Single-bit Feedback

多智能体系统中的高效协调往往会带来高昂的通信开销或较慢的收敛速度,使得可扩展的福利优化变得困难。我们提出了用于帕累托有效结果的单比特协调动态(SBC-PE),这是一种去中心化学习算法,每个智能体每轮仅需一个单比特的满意度信号。尽管具有这种极高的效率,SBC-PE仍能保证在任意有限博弈中收敛到精确的最...

Seref Taha Kiremitci, Ahmed Said Donmez 等 3 人
2025/09/30