arXiv AI 每日精选

316 篇论文
🧠机器学习(137篇)
stat.MLcs.AIcs.CL+2

#1无限污染的语言生成

Language Generation with Infinite Contamination

我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字...

Anay Mehrotra, Grigoris Velegkas 等 4 人
2025/11/10
cs.AIcs.CLcs.HC+1

#2DigiData:通用移动控制智能体的训练与评估

DigiData: Training and Evaluating General-Purpose Mobile Control Agents

能够控制用户界面的人工智能代理有潜力改变人类与数字设备的交互方式。为加速这一变革,两个基本构建块至关重要:一是高质量数据集,使代理能够实现复杂且与人类相关的目标;二是稳健的评估方法,让研究人员和从业者能够快速提升代理性能。在本文中,我们介绍DigiData,这是一个大规模、高质量、多样化的多模态数据...

Yuxuan Sun, Manchen Wang 等 21 人
2025/11/10
cs.CVcs.AIcs.CL+1

#3空间思考者:通过空间奖励增强多模态大型语言模型的三维推理能力

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

多模态大型语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在空间理解方面仍存在困难。现有的空间MLLMs通常依赖显式的3D输入或特定架构的修改,并且受到大规模数据集或稀疏监督的限制。为解决这些局限性,我们提出了SpatialThinker,这是一种通过强化学习(RL)训练的3D感知MLLM,...

Hunar Batra, Haoqin Tu 等 6 人
2025/11/10

还有 134 篇论文

🤖人工智能(综合)(128篇)
stat.MLcs.AIcs.CL+2

#1无限污染的语言生成

Language Generation with Infinite Contamination

我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字...

Anay Mehrotra, Grigoris Velegkas 等 4 人
2025/11/10
cs.ROcs.AIcs.CV

#2从物理世界模型中学习的机器人

Robot Learning from a Physical World Model

我们提出了PhysWorld,这是一个通过物理世界建模实现机器人从视频生成中学习的框架。最近的视频生成模型能够根据语言指令和图像合成逼真的视觉演示,为机器人技术提供了强大但尚未充分探索的训练信号来源。然而,直接将生成视频中的像素运动重新定位到机器人上忽略了物理因素,往往导致不准确的操作。PhysWo...

Jiageng Mao, Sicheng He 等 12 人
2025/11/10
cs.AIcs.CLcs.HC+1

#3DigiData:通用移动控制智能体的训练与评估

DigiData: Training and Evaluating General-Purpose Mobile Control Agents

能够控制用户界面的人工智能代理有潜力改变人类与数字设备的交互方式。为加速这一变革,两个基本构建块至关重要:一是高质量数据集,使代理能够实现复杂且与人类相关的目标;二是稳健的评估方法,让研究人员和从业者能够快速提升代理性能。在本文中,我们介绍DigiData,这是一个大规模、高质量、多样化的多模态数据...

Yuxuan Sun, Manchen Wang 等 21 人
2025/11/10

还有 125 篇论文

👁️计算机视觉(105篇)
cs.ROcs.AIcs.CV

#1从物理世界模型中学习的机器人

Robot Learning from a Physical World Model

我们提出了PhysWorld,这是一个通过物理世界建模实现机器人从视频生成中学习的框架。最近的视频生成模型能够根据语言指令和图像合成逼真的视觉演示,为机器人技术提供了强大但尚未充分探索的训练信号来源。然而,直接将生成视频中的像素运动重新定位到机器人上忽略了物理因素,往往导致不准确的操作。PhysWo...

Jiageng Mao, Sicheng He 等 12 人
2025/11/10
cs.CVcs.AIcs.CL+1

#2空间思考者:通过空间奖励增强多模态大型语言模型的三维推理能力

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

多模态大型语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在空间理解方面仍存在困难。现有的空间MLLMs通常依赖显式的3D输入或特定架构的修改,并且受到大规模数据集或稀疏监督的限制。为解决这些局限性,我们提出了SpatialThinker,这是一种通过强化学习(RL)训练的3D感知MLLM,...

Hunar Batra, Haoqin Tu 等 6 人
2025/11/10
cs.CVcs.AIcs.RO

#3基于频率感知多尺度融合的实时激光雷达超分辨率

Real-Time LiDAR Super-Resolution via Frequency-Aware Multi-Scale Fusion

激光雷达超分辨率旨在解决从经济高效的低分辨率传感器获取高质量三维感知的挑战。尽管最近基于Transformer的方法(如TULIP)显示出潜力,但它们仍局限于具有受限感受野的空间域处理。我们提出了FLASH(Frequency-aware LiDAR Adaptive Super-resolutio...

June Moh Goo, Zichao Zeng 等 3 人
2025/11/10

还有 102 篇论文

💬计算语言学(62篇)
stat.MLcs.AIcs.CL+2

#1无限污染的语言生成

Language Generation with Infinite Contamination

我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字...

Anay Mehrotra, Grigoris Velegkas 等 4 人
2025/11/10
cs.AIcs.CLcs.HC+1

#2DigiData:通用移动控制智能体的训练与评估

DigiData: Training and Evaluating General-Purpose Mobile Control Agents

能够控制用户界面的人工智能代理有潜力改变人类与数字设备的交互方式。为加速这一变革,两个基本构建块至关重要:一是高质量数据集,使代理能够实现复杂且与人类相关的目标;二是稳健的评估方法,让研究人员和从业者能够快速提升代理性能。在本文中,我们介绍DigiData,这是一个大规模、高质量、多样化的多模态数据...

Yuxuan Sun, Manchen Wang 等 21 人
2025/11/10
cs.CVcs.AIcs.CL+1

#3空间思考者:通过空间奖励增强多模态大型语言模型的三维推理能力

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

多模态大型语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在空间理解方面仍存在困难。现有的空间MLLMs通常依赖显式的3D输入或特定架构的修改,并且受到大规模数据集或稀疏监督的限制。为解决这些局限性,我们提出了SpatialThinker,这是一种通过强化学习(RL)训练的3D感知MLLM,...

Hunar Batra, Haoqin Tu 等 6 人
2025/11/10

还有 59 篇论文

🦾机器人学(22篇)
cs.ROcs.AIcs.CV

#1从物理世界模型中学习的机器人

Robot Learning from a Physical World Model

我们提出了PhysWorld,这是一个通过物理世界建模实现机器人从视频生成中学习的框架。最近的视频生成模型能够根据语言指令和图像合成逼真的视觉演示,为机器人技术提供了强大但尚未充分探索的训练信号来源。然而,直接将生成视频中的像素运动重新定位到机器人上忽略了物理因素,往往导致不准确的操作。PhysWo...

Jiageng Mao, Sicheng He 等 12 人
2025/11/10
cs.ROcs.AI

#2从控制理论视角看将视觉语言模型用作机器人应用的闭环符号规划器

Using Vision Language Models as Closed-Loop Symbolic Planners for Robotic Applications: A Control-Theoretic Perspective

大型语言模型(LLMs)和视觉语言模型(VLMs)已广泛应用于具身符号规划。然而,如何有效地将这些模型用于闭环符号规划在很大程度上仍未被探索。由于它们作为黑盒运行,LLMs和VLMs可能会产生不可预测或代价高昂的错误,这使得它们在高级机器人规划中的应用尤其具有挑战性。在这项工作中,我们从控制理论的角...

Hao Wang, Sathwik Karnik 等 4 人
2025/11/10
cs.CVcs.AIcs.RO

#3基于频率感知多尺度融合的实时激光雷达超分辨率

Real-Time LiDAR Super-Resolution via Frequency-Aware Multi-Scale Fusion

激光雷达超分辨率旨在解决从经济高效的低分辨率传感器获取高质量三维感知的挑战。尽管最近基于Transformer的方法(如TULIP)显示出潜力,但它们仍局限于具有受限感受野的空间域处理。我们提出了FLASH(Frequency-aware LiDAR Adaptive Super-resolutio...

June Moh Goo, Zichao Zeng 等 3 人
2025/11/10

还有 19 篇论文

📊统计机器学习(12篇)
stat.MLcs.AIcs.CL+2

#1无限污染的语言生成

Language Generation with Infinite Contamination

我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字...

Anay Mehrotra, Grigoris Velegkas 等 4 人
2025/11/10
cs.LGcs.AImath.OC+1

#2Transformer模型通过长度泛化可证明地学习链式思维推理

Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization

推理能力是人工智能(AI)的核心,而具有挑战性的问题通常需要更深层次和更长的推理来解决。关于AI推理的一个关键问题是,模型是否能够外推所学的推理模式,以通过更长的思维链(CoT)解决更难的任务。在这项工作中,我们对Transformer在合成状态追踪任务上使用梯度下降进行学习的过程进行了理论分析。我...

Yu Huang, Zixin Wen 等 5 人
2025/11/10
cs.LGcs.AIstat.ML

#3深度强化学习中双重下降现象的存在

On The Presence of Double-Descent in Deep Reinforcement Learning

双重下降(DD)悖论指过参数化模型在插值点之后泛化能力反而提升,这在深度强化学习(DRL)的非平稳领域中仍未得到充分探索。我们提供初步证据表明无模型DRL中存在DD,并使用Actor-Critic框架在不同模型容量下对其进行系统研究。我们依靠信息论度量——策略熵来衡量训练过程中的策略不确定性。初步结...

Viktor Veselý, Aleksandar Todorov 等 3 人
2025/11/10

还有 9 篇论文

⚙️系统与控制(7篇)
eess.SYcs.LGcs.SY

#1群体智慧:利用集成和机器学习对电力系统中的网络攻击和故障进行高保真分类

The Wisdom of the Crowd: High-Fidelity Classification of Cyber-Attacks and Faults in Power Systems Using Ensemble and Machine Learning

本文提出了一个高保真度评估框架,用于基于机器学习(ML)的网络攻击和物理故障分类,该框架使用4.8 kHz的数字变电站仿真进行电磁暂态模拟。包括集成算法和多层感知器(MLP)在内的12种ML模型在标记的时域测量数据上进行了训练,并在为亚周期响应设计的实时流环境中进行了评估。该架构集成了周期长度平滑滤...

Emad Abukhousa, Syed Sohail Feroz Syed Afroz 等 6 人
2025/11/10
eess.SYcs.LGcs.SY

#2基于图神经网络的稳健混合波束成形:基于分数的信道状态信息生成与去噪

GNN-Enabled Robust Hybrid Beamforming with Score-Based CSI Generation and Denoising

准确的信道状态信息(CSI)对于混合波束赋形(HBF)任务至关重要。然而,在实际的无线通信系统中,获取高分辨率CSI仍然具有挑战性。为解决这一问题,我们提出利用图神经网络(GNNs)和基于分数的生成模型,以在CSI不完善的情况下实现鲁棒的HBF。首先,我们开发了混合消息图注意力网络(HMGAT),该...

Yuhang Li, Yang Lu 等 6 人
2025/11/10
cs.CVcs.ROcs.SY+2

#3使用无人机IMU数据的航空图像拼接

Aerial Image Stitching Using IMU Data from a UAV

无人驾驶飞行器(UAV)广泛用于航空摄影和遥感应用。其中一个主要挑战是将多张图像拼接成一张覆盖大面积的高分辨率图像。基于特征的图像拼接算法虽被普遍使用,但在特征检测和匹配过程中可能会出现误差和歧义。为解决这一问题,已提出多种方法,包括使用光束平差法或直接图像对齐。在本文中,我们提出一种新方法,该方法...

Selim Ahmet Iz, Mustafa Unel
2025/11/10

还有 4 篇论文

🧬神经网络与进化计算(2篇)
cs.LGcs.AIcs.NE

#1快速权重内稳态折返网络中的递归动力学:迈向反思智能

Recursive Dynamics in Fast-Weights Homeostatic Reentry Networks: Toward Reflective Intelligence

本研究介绍了快速权重稳态折返层(FH-RL),这是一种神经机制,它整合了快速权重联想记忆、稳态正则化和学习的折返反馈,以在神经网络中近似自指计算。与标准Transformer架构在推理过程中纯粹以前馈方式运行不同,FH-RL无需外部循环即可实现内部递归,允许将先前的潜在状态动态重新输入到正在进行的计...

B. G. Chae
2025/11/10
cs.NEcs.NAmath.NA

#2从LIF到QIF:面向科学机器学习的可微分脉冲神经元

From LIF to QIF: Toward Differentiable Spiking Neurons for Scientific Machine Learning

脉冲神经网络(SNNs)提供了受生物启发的计算方式,但在科学机器学习的连续回归任务中仍未被充分探索。在这项工作中,我们引入并系统评估了二次整合发放(QIF)神经元,作为传统漏电整合发放(LIF)模型的替代方案,应用于直接训练的SNNs和人工神经网络到SNN的转换框架中。QIF神经元表现出平滑且可微分...

Ruyin Wan, George Em Karniadakis 等 3 人
2025/11/10
🎯博弈论与AI(2篇)
cs.LGcs.GT

#1突破梯度壁垒:揭示用于战略分类的大型语言模型

Breaking the Gradient Barrier: Unveiling Large Language Models for Strategic Classification

战略分类(SC)研究个人或实体如何战略性地修改其特征以获得有利的分类结果。然而,现有的SC方法主要基于线性模型或浅层神经网络,在应用于规模显著增长的现实世界数据集时,尤其是在金融服务和互联网领域,面临着可扩展性和容量方面的重大限制。在本文中,我们研究如何利用大型语言模型设计更具可扩展性和效率的SC框...

Xinpeng Lv, Yunxin Mao 等 12 人
2025/11/10
cs.GTcs.MAstat.OT

#2序贯因果范式博弈:理论、计算与策略信号传导

Sequential Causal Normal Form Games: Theory, Computation, and Strategic Signaling

经典博弈论框架能否扩展以捕捉AI智能体的有限理性和因果推理能力?我们通过将因果标准型博弈(CNFG)扩展到序贯环境来研究这个问题,引入了序贯因果多智能体系统(S-CMAS),该系统在领导者-追随者交互中整合了珀尔的因果层次结构。尽管在理论上很优雅——我们证明了PSPACE完全性,开发了均衡精炼,并建...

Dennis Thumm
2025/11/10