arXiv AI 每日精选
316 篇论文#1无限污染的语言生成
Language Generation with Infinite Contamination
我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字符串。为了解决这个问题,Kleinberg和Wei[KW25]要求生成器的输出在目标语言中是“稠密的”。他们表明,令人惊讶的是,具有稠密性的生成在同样的一般性下仍然可以实现。这两个结果都假设数据是完美的:没有噪声插入,也没有遗漏。这就引出了一个核心问题:生成能够容忍多少污染?最近的研究通过研究(非稠...
#2DigiData:通用移动控制智能体的训练与评估
DigiData: Training and Evaluating General-Purpose Mobile Control Agents
能够控制用户界面的人工智能代理有潜力改变人类与数字设备的交互方式。为加速这一变革,两个基本构建块至关重要:一是高质量数据集,使代理能够实现复杂且与人类相关的目标;二是稳健的评估方法,让研究人员和从业者能够快速提升代理性能。在本文中,我们介绍DigiData,这是一个大规模、高质量、多样化的多模态数据集,专为训练移动控制代理而设计。与现有从非结构化交互中获取目标的数据集不同,DigiData通过全面探索应用功能精心构建,因此具有更高的多样性和目标复杂性。此外,我们提出DigiData-Bench,一个用于在真实世界复杂任务上评估移动控制代理的基准。我们证明,常用的步骤准确率指标在可靠评估移动控制...
#3空间思考者:通过空间奖励增强多模态大型语言模型的三维推理能力
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
多模态大型语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在空间理解方面仍存在困难。现有的空间MLLMs通常依赖显式的3D输入或特定架构的修改,并且受到大规模数据集或稀疏监督的限制。为解决这些局限性,我们提出了SpatialThinker,这是一种通过强化学习(RL)训练的3D感知MLLM,能够将结构化空间接地与多步推理相结合。该模型通过构建与任务相关的对象和空间关系的场景图,并通过密集的空间奖励推理得出答案,从而模拟类人的空间感知。SpatialThinker包含两个关键贡献:(1)一个数据合成管道,用于生成STVQA-7K,这是一个高质量的空间视觉问答数据集;(2)具有多目标密集空...
#1无限污染的语言生成
Language Generation with Infinite Contamination
我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字...
#2DigiData:通用移动控制智能体的训练与评估
DigiData: Training and Evaluating General-Purpose Mobile Control Agents
能够控制用户界面的人工智能代理有潜力改变人类与数字设备的交互方式。为加速这一变革,两个基本构建块至关重要:一是高质量数据集,使代理能够实现复杂且与人类相关的目标;二是稳健的评估方法,让研究人员和从业者能够快速提升代理性能。在本文中,我们介绍DigiData,这是一个大规模、高质量、多样化的多模态数据...
#3空间思考者:通过空间奖励增强多模态大型语言模型的三维推理能力
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
多模态大型语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在空间理解方面仍存在困难。现有的空间MLLMs通常依赖显式的3D输入或特定架构的修改,并且受到大规模数据集或稀疏监督的限制。为解决这些局限性,我们提出了SpatialThinker,这是一种通过强化学习(RL)训练的3D感知MLLM,...
还有 134 篇论文
#1无限污染的语言生成
Language Generation with Infinite Contamination
我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字符串。为了解决这个问题,Kleinberg和Wei[KW25]要求生成器的输出在目标语言中是“稠密的”。他们表明,令人惊讶的是,具有稠密性的生成在同样的一般性下仍然可以实现。这两个结果都假设数据是完美的:没有噪声插入,也没有遗漏。这就引出了一个核心问题:生成能够容忍多少污染?最近的研究通过研究(非稠...
#2从物理世界模型中学习的机器人
Robot Learning from a Physical World Model
我们提出了PhysWorld,这是一个通过物理世界建模实现机器人从视频生成中学习的框架。最近的视频生成模型能够根据语言指令和图像合成逼真的视觉演示,为机器人技术提供了强大但尚未充分探索的训练信号来源。然而,直接将生成视频中的像素运动重新定位到机器人上忽略了物理因素,往往导致不准确的操作。PhysWorld通过将视频生成与物理世界重建相结合来解决这一局限性。给定单张图像和任务指令,我们的方法生成任务条件视频并从视频中重建底层物理世界,生成的视频运动通过基于物体的残余强化学习与物理世界模型相结合,转化为物理上准确的动作。这种协同作用将隐含的视觉指导转化为可物理执行的机器人轨迹,消除了对真实机器人数...
#3DigiData:通用移动控制智能体的训练与评估
DigiData: Training and Evaluating General-Purpose Mobile Control Agents
能够控制用户界面的人工智能代理有潜力改变人类与数字设备的交互方式。为加速这一变革,两个基本构建块至关重要:一是高质量数据集,使代理能够实现复杂且与人类相关的目标;二是稳健的评估方法,让研究人员和从业者能够快速提升代理性能。在本文中,我们介绍DigiData,这是一个大规模、高质量、多样化的多模态数据集,专为训练移动控制代理而设计。与现有从非结构化交互中获取目标的数据集不同,DigiData通过全面探索应用功能精心构建,因此具有更高的多样性和目标复杂性。此外,我们提出DigiData-Bench,一个用于在真实世界复杂任务上评估移动控制代理的基准。我们证明,常用的步骤准确率指标在可靠评估移动控制...
#1无限污染的语言生成
Language Generation with Infinite Contamination
我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字...
#2从物理世界模型中学习的机器人
Robot Learning from a Physical World Model
我们提出了PhysWorld,这是一个通过物理世界建模实现机器人从视频生成中学习的框架。最近的视频生成模型能够根据语言指令和图像合成逼真的视觉演示,为机器人技术提供了强大但尚未充分探索的训练信号来源。然而,直接将生成视频中的像素运动重新定位到机器人上忽略了物理因素,往往导致不准确的操作。PhysWo...
#3DigiData:通用移动控制智能体的训练与评估
DigiData: Training and Evaluating General-Purpose Mobile Control Agents
能够控制用户界面的人工智能代理有潜力改变人类与数字设备的交互方式。为加速这一变革,两个基本构建块至关重要:一是高质量数据集,使代理能够实现复杂且与人类相关的目标;二是稳健的评估方法,让研究人员和从业者能够快速提升代理性能。在本文中,我们介绍DigiData,这是一个大规模、高质量、多样化的多模态数据...
还有 125 篇论文
#1从物理世界模型中学习的机器人
Robot Learning from a Physical World Model
我们提出了PhysWorld,这是一个通过物理世界建模实现机器人从视频生成中学习的框架。最近的视频生成模型能够根据语言指令和图像合成逼真的视觉演示,为机器人技术提供了强大但尚未充分探索的训练信号来源。然而,直接将生成视频中的像素运动重新定位到机器人上忽略了物理因素,往往导致不准确的操作。PhysWorld通过将视频生成与物理世界重建相结合来解决这一局限性。给定单张图像和任务指令,我们的方法生成任务条件视频并从视频中重建底层物理世界,生成的视频运动通过基于物体的残余强化学习与物理世界模型相结合,转化为物理上准确的动作。这种协同作用将隐含的视觉指导转化为可物理执行的机器人轨迹,消除了对真实机器人数...
#2空间思考者:通过空间奖励增强多模态大型语言模型的三维推理能力
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
多模态大型语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在空间理解方面仍存在困难。现有的空间MLLMs通常依赖显式的3D输入或特定架构的修改,并且受到大规模数据集或稀疏监督的限制。为解决这些局限性,我们提出了SpatialThinker,这是一种通过强化学习(RL)训练的3D感知MLLM,能够将结构化空间接地与多步推理相结合。该模型通过构建与任务相关的对象和空间关系的场景图,并通过密集的空间奖励推理得出答案,从而模拟类人的空间感知。SpatialThinker包含两个关键贡献:(1)一个数据合成管道,用于生成STVQA-7K,这是一个高质量的空间视觉问答数据集;(2)具有多目标密集空...
#3基于频率感知多尺度融合的实时激光雷达超分辨率
Real-Time LiDAR Super-Resolution via Frequency-Aware Multi-Scale Fusion
激光雷达超分辨率旨在解决从经济高效的低分辨率传感器获取高质量三维感知的挑战。尽管最近基于Transformer的方法(如TULIP)显示出潜力,但它们仍局限于具有受限感受野的空间域处理。我们提出了FLASH(Frequency-aware LiDAR Adaptive Super-resolution with Hierarchical fusion,频率感知激光雷达自适应超分辨率与分层融合),这是一种通过双域处理克服这些局限性的新型框架。FLASH整合了两项关键创新:(i)频率感知窗口注意力机制,通过FFT将局部空间注意力与全局频率域分析相结合,以对数线性复杂度捕捉细粒度几何结构和周期性扫描...
#1从物理世界模型中学习的机器人
Robot Learning from a Physical World Model
我们提出了PhysWorld,这是一个通过物理世界建模实现机器人从视频生成中学习的框架。最近的视频生成模型能够根据语言指令和图像合成逼真的视觉演示,为机器人技术提供了强大但尚未充分探索的训练信号来源。然而,直接将生成视频中的像素运动重新定位到机器人上忽略了物理因素,往往导致不准确的操作。PhysWo...
#2空间思考者:通过空间奖励增强多模态大型语言模型的三维推理能力
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
多模态大型语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在空间理解方面仍存在困难。现有的空间MLLMs通常依赖显式的3D输入或特定架构的修改,并且受到大规模数据集或稀疏监督的限制。为解决这些局限性,我们提出了SpatialThinker,这是一种通过强化学习(RL)训练的3D感知MLLM,...
#3基于频率感知多尺度融合的实时激光雷达超分辨率
Real-Time LiDAR Super-Resolution via Frequency-Aware Multi-Scale Fusion
激光雷达超分辨率旨在解决从经济高效的低分辨率传感器获取高质量三维感知的挑战。尽管最近基于Transformer的方法(如TULIP)显示出潜力,但它们仍局限于具有受限感受野的空间域处理。我们提出了FLASH(Frequency-aware LiDAR Adaptive Super-resolutio...
还有 102 篇论文
#1无限污染的语言生成
Language Generation with Infinite Contamination
我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字符串。为了解决这个问题,Kleinberg和Wei[KW25]要求生成器的输出在目标语言中是“稠密的”。他们表明,令人惊讶的是,具有稠密性的生成在同样的一般性下仍然可以实现。这两个结果都假设数据是完美的:没有噪声插入,也没有遗漏。这就引出了一个核心问题:生成能够容忍多少污染?最近的研究通过研究(非稠...
#2DigiData:通用移动控制智能体的训练与评估
DigiData: Training and Evaluating General-Purpose Mobile Control Agents
能够控制用户界面的人工智能代理有潜力改变人类与数字设备的交互方式。为加速这一变革,两个基本构建块至关重要:一是高质量数据集,使代理能够实现复杂且与人类相关的目标;二是稳健的评估方法,让研究人员和从业者能够快速提升代理性能。在本文中,我们介绍DigiData,这是一个大规模、高质量、多样化的多模态数据集,专为训练移动控制代理而设计。与现有从非结构化交互中获取目标的数据集不同,DigiData通过全面探索应用功能精心构建,因此具有更高的多样性和目标复杂性。此外,我们提出DigiData-Bench,一个用于在真实世界复杂任务上评估移动控制代理的基准。我们证明,常用的步骤准确率指标在可靠评估移动控制...
#3空间思考者:通过空间奖励增强多模态大型语言模型的三维推理能力
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
多模态大型语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在空间理解方面仍存在困难。现有的空间MLLMs通常依赖显式的3D输入或特定架构的修改,并且受到大规模数据集或稀疏监督的限制。为解决这些局限性,我们提出了SpatialThinker,这是一种通过强化学习(RL)训练的3D感知MLLM,能够将结构化空间接地与多步推理相结合。该模型通过构建与任务相关的对象和空间关系的场景图,并通过密集的空间奖励推理得出答案,从而模拟类人的空间感知。SpatialThinker包含两个关键贡献:(1)一个数据合成管道,用于生成STVQA-7K,这是一个高质量的空间视觉问答数据集;(2)具有多目标密集空...
#1无限污染的语言生成
Language Generation with Infinite Contamination
我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字...
#2DigiData:通用移动控制智能体的训练与评估
DigiData: Training and Evaluating General-Purpose Mobile Control Agents
能够控制用户界面的人工智能代理有潜力改变人类与数字设备的交互方式。为加速这一变革,两个基本构建块至关重要:一是高质量数据集,使代理能够实现复杂且与人类相关的目标;二是稳健的评估方法,让研究人员和从业者能够快速提升代理性能。在本文中,我们介绍DigiData,这是一个大规模、高质量、多样化的多模态数据...
#3空间思考者:通过空间奖励增强多模态大型语言模型的三维推理能力
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
多模态大型语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在空间理解方面仍存在困难。现有的空间MLLMs通常依赖显式的3D输入或特定架构的修改,并且受到大规模数据集或稀疏监督的限制。为解决这些局限性,我们提出了SpatialThinker,这是一种通过强化学习(RL)训练的3D感知MLLM,...
还有 59 篇论文
#1从物理世界模型中学习的机器人
Robot Learning from a Physical World Model
我们提出了PhysWorld,这是一个通过物理世界建模实现机器人从视频生成中学习的框架。最近的视频生成模型能够根据语言指令和图像合成逼真的视觉演示,为机器人技术提供了强大但尚未充分探索的训练信号来源。然而,直接将生成视频中的像素运动重新定位到机器人上忽略了物理因素,往往导致不准确的操作。PhysWorld通过将视频生成与物理世界重建相结合来解决这一局限性。给定单张图像和任务指令,我们的方法生成任务条件视频并从视频中重建底层物理世界,生成的视频运动通过基于物体的残余强化学习与物理世界模型相结合,转化为物理上准确的动作。这种协同作用将隐含的视觉指导转化为可物理执行的机器人轨迹,消除了对真实机器人数...
#2从控制理论视角看将视觉语言模型用作机器人应用的闭环符号规划器
Using Vision Language Models as Closed-Loop Symbolic Planners for Robotic Applications: A Control-Theoretic Perspective
大型语言模型(LLMs)和视觉语言模型(VLMs)已广泛应用于具身符号规划。然而,如何有效地将这些模型用于闭环符号规划在很大程度上仍未被探索。由于它们作为黑盒运行,LLMs和VLMs可能会产生不可预测或代价高昂的错误,这使得它们在高级机器人规划中的应用尤其具有挑战性。在这项工作中,我们从控制理论的角度研究如何将VLMs用作机器人应用的闭环符号规划器。具体而言,我们研究了控制 horizon 和热启动如何影响VLM符号规划器的性能。我们设计并进行了对照实验,以获得可广泛应用于将VLMs用作闭环符号规划器的见解,并讨论了有助于提高VLM符号规划器性能的建议。
#3基于频率感知多尺度融合的实时激光雷达超分辨率
Real-Time LiDAR Super-Resolution via Frequency-Aware Multi-Scale Fusion
激光雷达超分辨率旨在解决从经济高效的低分辨率传感器获取高质量三维感知的挑战。尽管最近基于Transformer的方法(如TULIP)显示出潜力,但它们仍局限于具有受限感受野的空间域处理。我们提出了FLASH(Frequency-aware LiDAR Adaptive Super-resolution with Hierarchical fusion,频率感知激光雷达自适应超分辨率与分层融合),这是一种通过双域处理克服这些局限性的新型框架。FLASH整合了两项关键创新:(i)频率感知窗口注意力机制,通过FFT将局部空间注意力与全局频率域分析相结合,以对数线性复杂度捕捉细粒度几何结构和周期性扫描...
#1从物理世界模型中学习的机器人
Robot Learning from a Physical World Model
我们提出了PhysWorld,这是一个通过物理世界建模实现机器人从视频生成中学习的框架。最近的视频生成模型能够根据语言指令和图像合成逼真的视觉演示,为机器人技术提供了强大但尚未充分探索的训练信号来源。然而,直接将生成视频中的像素运动重新定位到机器人上忽略了物理因素,往往导致不准确的操作。PhysWo...
#2从控制理论视角看将视觉语言模型用作机器人应用的闭环符号规划器
Using Vision Language Models as Closed-Loop Symbolic Planners for Robotic Applications: A Control-Theoretic Perspective
大型语言模型(LLMs)和视觉语言模型(VLMs)已广泛应用于具身符号规划。然而,如何有效地将这些模型用于闭环符号规划在很大程度上仍未被探索。由于它们作为黑盒运行,LLMs和VLMs可能会产生不可预测或代价高昂的错误,这使得它们在高级机器人规划中的应用尤其具有挑战性。在这项工作中,我们从控制理论的角...
#3基于频率感知多尺度融合的实时激光雷达超分辨率
Real-Time LiDAR Super-Resolution via Frequency-Aware Multi-Scale Fusion
激光雷达超分辨率旨在解决从经济高效的低分辨率传感器获取高质量三维感知的挑战。尽管最近基于Transformer的方法(如TULIP)显示出潜力,但它们仍局限于具有受限感受野的空间域处理。我们提出了FLASH(Frequency-aware LiDAR Adaptive Super-resolutio...
还有 19 篇论文
#1无限污染的语言生成
Language Generation with Infinite Contamination
我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字符串。为了解决这个问题,Kleinberg和Wei[KW25]要求生成器的输出在目标语言中是“稠密的”。他们表明,令人惊讶的是,具有稠密性的生成在同样的一般性下仍然可以实现。这两个结果都假设数据是完美的:没有噪声插入,也没有遗漏。这就引出了一个核心问题:生成能够容忍多少污染?最近的研究通过研究(非稠...
#2Transformer模型通过长度泛化可证明地学习链式思维推理
Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization
推理能力是人工智能(AI)的核心,而具有挑战性的问题通常需要更深层次和更长的推理来解决。关于AI推理的一个关键问题是,模型是否能够外推所学的推理模式,以通过更长的思维链(CoT)解决更难的任务。在这项工作中,我们对Transformer在合成状态追踪任务上使用梯度下降进行学习的过程进行了理论分析。我们从数学上证明了状态追踪问题的代数结构如何决定所学CoT的外推程度。具体而言,我们的理论通过注意力集中机制来刻画Transformer的长度泛化能力,将注意力层的检索鲁棒性与长上下文推理的状态追踪任务结构联系起来。此外,对于推理长度有限的Transformer,我们证明了递归自训练方案可以逐步扩展可...
#3深度强化学习中双重下降现象的存在
On The Presence of Double-Descent in Deep Reinforcement Learning
双重下降(DD)悖论指过参数化模型在插值点之后泛化能力反而提升,这在深度强化学习(DRL)的非平稳领域中仍未得到充分探索。我们提供初步证据表明无模型DRL中存在DD,并使用Actor-Critic框架在不同模型容量下对其进行系统研究。我们依靠信息论度量——策略熵来衡量训练过程中的策略不确定性。初步结果显示清晰的跨周期DD曲线;策略进入第二次下降区域与策略熵的持续显著降低相关。这种熵衰减表明,过参数化充当了一种隐式正则化器,引导策略在损失景观中趋向稳健、更平坦的最小值。这些发现确立了DD是DRL中的一个影响因素,并为设计更具泛化性、可迁移性和稳健性的智能体提供了一种基于信息的机制。
#1无限污染的语言生成
Language Generation with Infinite Contamination
我们研究极限情况下的语言生成,即算法观察来自未知目标语言$K$的字符串的对抗性枚举,并且最终必须生成$K$中未见的新字符串。Kleinberg和Mullainathan[KM24]证明了在令人惊讶的一般设置下可以实现生成。但是他们的生成器存在“模式崩溃”问题,仅从目标语言的一个越来越小的子集中生成字...
#2Transformer模型通过长度泛化可证明地学习链式思维推理
Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization
推理能力是人工智能(AI)的核心,而具有挑战性的问题通常需要更深层次和更长的推理来解决。关于AI推理的一个关键问题是,模型是否能够外推所学的推理模式,以通过更长的思维链(CoT)解决更难的任务。在这项工作中,我们对Transformer在合成状态追踪任务上使用梯度下降进行学习的过程进行了理论分析。我...
#3深度强化学习中双重下降现象的存在
On The Presence of Double-Descent in Deep Reinforcement Learning
双重下降(DD)悖论指过参数化模型在插值点之后泛化能力反而提升,这在深度强化学习(DRL)的非平稳领域中仍未得到充分探索。我们提供初步证据表明无模型DRL中存在DD,并使用Actor-Critic框架在不同模型容量下对其进行系统研究。我们依靠信息论度量——策略熵来衡量训练过程中的策略不确定性。初步结...
还有 9 篇论文
#1群体智慧:利用集成和机器学习对电力系统中的网络攻击和故障进行高保真分类
The Wisdom of the Crowd: High-Fidelity Classification of Cyber-Attacks and Faults in Power Systems Using Ensemble and Machine Learning
本文提出了一个高保真度评估框架,用于基于机器学习(ML)的网络攻击和物理故障分类,该框架使用4.8 kHz的数字变电站仿真进行电磁暂态模拟。包括集成算法和多层感知器(MLP)在内的12种ML模型在标记的时域测量数据上进行了训练,并在为亚周期响应设计的实时流环境中进行了评估。该架构集成了周期长度平滑滤波器和置信度阈值以稳定决策。结果表明,尽管有几种模型实现了接近完美的离线准确率(高达99.9%),但在流处理情况下,只有MLP保持了稳健的覆盖率(98-99%),而集成模型虽保持了完美的异常检测精度,但经常不做判断(覆盖率为10-49%)。这些发现表明,仅离线准确率是现场就绪性的不可靠指标,并强调需...
#2基于图神经网络的稳健混合波束成形:基于分数的信道状态信息生成与去噪
GNN-Enabled Robust Hybrid Beamforming with Score-Based CSI Generation and Denoising
准确的信道状态信息(CSI)对于混合波束赋形(HBF)任务至关重要。然而,在实际的无线通信系统中,获取高分辨率CSI仍然具有挑战性。为解决这一问题,我们提出利用图神经网络(GNNs)和基于分数的生成模型,以在CSI不完善的情况下实现鲁棒的HBF。首先,我们开发了混合消息图注意力网络(HMGAT),该网络通过节点级和边级消息传递来更新节点和边特征。其次,我们设计了一种基于双向编码器表示来自转换器(BERT)的噪声条件分数网络(NCSN),以学习高分辨率CSI的分布,促进CSI生成和数据增强,从而进一步提高HMGAT的性能。最后,我们提出了一种去噪分数网络(DSN)框架及其实例化模型DeBERT,...
#3使用无人机IMU数据的航空图像拼接
Aerial Image Stitching Using IMU Data from a UAV
无人驾驶飞行器(UAV)广泛用于航空摄影和遥感应用。其中一个主要挑战是将多张图像拼接成一张覆盖大面积的高分辨率图像。基于特征的图像拼接算法虽被普遍使用,但在特征检测和匹配过程中可能会出现误差和歧义。为解决这一问题,已提出多种方法,包括使用光束平差法或直接图像对齐。在本文中,我们提出一种新方法,该方法结合惯性测量单元(IMU)数据和计算机视觉技术,用于拼接无人机捕获的图像。我们的方法包括多个步骤,例如估计连续图像之间无人机的位移和旋转、校正透视畸变以及计算单应矩阵。然后,我们使用标准图像拼接算法对图像进行对齐和融合。我们提出的方法利用了IMU数据提供的额外信息,校正了各种畸变源,并且可以轻松集成...
#1群体智慧:利用集成和机器学习对电力系统中的网络攻击和故障进行高保真分类
The Wisdom of the Crowd: High-Fidelity Classification of Cyber-Attacks and Faults in Power Systems Using Ensemble and Machine Learning
本文提出了一个高保真度评估框架,用于基于机器学习(ML)的网络攻击和物理故障分类,该框架使用4.8 kHz的数字变电站仿真进行电磁暂态模拟。包括集成算法和多层感知器(MLP)在内的12种ML模型在标记的时域测量数据上进行了训练,并在为亚周期响应设计的实时流环境中进行了评估。该架构集成了周期长度平滑滤...
#2基于图神经网络的稳健混合波束成形:基于分数的信道状态信息生成与去噪
GNN-Enabled Robust Hybrid Beamforming with Score-Based CSI Generation and Denoising
准确的信道状态信息(CSI)对于混合波束赋形(HBF)任务至关重要。然而,在实际的无线通信系统中,获取高分辨率CSI仍然具有挑战性。为解决这一问题,我们提出利用图神经网络(GNNs)和基于分数的生成模型,以在CSI不完善的情况下实现鲁棒的HBF。首先,我们开发了混合消息图注意力网络(HMGAT),该...
#3使用无人机IMU数据的航空图像拼接
Aerial Image Stitching Using IMU Data from a UAV
无人驾驶飞行器(UAV)广泛用于航空摄影和遥感应用。其中一个主要挑战是将多张图像拼接成一张覆盖大面积的高分辨率图像。基于特征的图像拼接算法虽被普遍使用,但在特征检测和匹配过程中可能会出现误差和歧义。为解决这一问题,已提出多种方法,包括使用光束平差法或直接图像对齐。在本文中,我们提出一种新方法,该方法...
还有 4 篇论文
#1快速权重内稳态折返网络中的递归动力学:迈向反思智能
Recursive Dynamics in Fast-Weights Homeostatic Reentry Networks: Toward Reflective Intelligence
本研究介绍了快速权重稳态折返层(FH-RL),这是一种神经机制,它整合了快速权重联想记忆、稳态正则化和学习的折返反馈,以在神经网络中近似自指计算。与标准Transformer架构在推理过程中纯粹以前馈方式运行不同,FH-RL无需外部循环即可实现内部递归,允许将先前的潜在状态动态重新输入到正在进行的计算流中。我们通过控制实验扫描折返增益$\gamma$,并使用三个新指标评估涌现的内部动态:信息折返比率(IRR)、特征谱递归指数(ESRI)和表征漂移周期性(RDP)。结果表明,折返量随$\gamma$成比例增加,而学习到的反馈矩阵$W_r$保持有界,并在中等增益下变得更具结构性。关键的是,在$\g...
#2从LIF到QIF:面向科学机器学习的可微分脉冲神经元
From LIF to QIF: Toward Differentiable Spiking Neurons for Scientific Machine Learning
脉冲神经网络(SNNs)提供了受生物启发的计算方式,但在科学机器学习的连续回归任务中仍未被充分探索。在这项工作中,我们引入并系统评估了二次整合发放(QIF)神经元,作为传统漏电整合发放(LIF)模型的替代方案,应用于直接训练的SNNs和人工神经网络到SNN的转换框架中。QIF神经元表现出平滑且可微分的脉冲动力学特性,能够在多层感知器(MLPs)、深度算子网络(DeepONets)和物理知情神经网络(PINNs)等架构中实现基于梯度的训练和稳定优化。在函数逼近、算子学习和偏微分方程(PDE)求解的基准测试中,基于QIF的网络比LIF网络产生更平滑、更准确和更稳定的预测,而LIF网络存在不连续的时...
#1快速权重内稳态折返网络中的递归动力学:迈向反思智能
Recursive Dynamics in Fast-Weights Homeostatic Reentry Networks: Toward Reflective Intelligence
本研究介绍了快速权重稳态折返层(FH-RL),这是一种神经机制,它整合了快速权重联想记忆、稳态正则化和学习的折返反馈,以在神经网络中近似自指计算。与标准Transformer架构在推理过程中纯粹以前馈方式运行不同,FH-RL无需外部循环即可实现内部递归,允许将先前的潜在状态动态重新输入到正在进行的计...
#2从LIF到QIF:面向科学机器学习的可微分脉冲神经元
From LIF to QIF: Toward Differentiable Spiking Neurons for Scientific Machine Learning
脉冲神经网络(SNNs)提供了受生物启发的计算方式,但在科学机器学习的连续回归任务中仍未被充分探索。在这项工作中,我们引入并系统评估了二次整合发放(QIF)神经元,作为传统漏电整合发放(LIF)模型的替代方案,应用于直接训练的SNNs和人工神经网络到SNN的转换框架中。QIF神经元表现出平滑且可微分...
#1突破梯度壁垒:揭示用于战略分类的大型语言模型
Breaking the Gradient Barrier: Unveiling Large Language Models for Strategic Classification
战略分类(SC)研究个人或实体如何战略性地修改其特征以获得有利的分类结果。然而,现有的SC方法主要基于线性模型或浅层神经网络,在应用于规模显著增长的现实世界数据集时,尤其是在金融服务和互联网领域,面临着可扩展性和容量方面的重大限制。在本文中,我们研究如何利用大型语言模型设计更具可扩展性和效率的SC框架,特别是在参与决策过程的个体不断增加的情况下。具体而言,我们引入了GLIM,一种基于上下文学习的无梯度SC方法。在自注意力的前馈过程中,GLIM隐式模拟了SC典型的双层优化过程,包括特征操纵和决策规则优化。无需微调大型语言模型,我们提出的GLIM在动态战略环境中具有经济高效的适应优势。理论上,我们...
#2序贯因果范式博弈:理论、计算与策略信号传导
Sequential Causal Normal Form Games: Theory, Computation, and Strategic Signaling
经典博弈论框架能否扩展以捕捉AI智能体的有限理性和因果推理能力?我们通过将因果标准型博弈(CNFG)扩展到序贯环境来研究这个问题,引入了序贯因果多智能体系统(S-CMAS),该系统在领导者-追随者交互中整合了珀尔的因果层次结构。尽管在理论上很优雅——我们证明了PSPACE完全性,开发了均衡精炼,并建立了与信号理论的联系——但我们的综合实证研究揭示了一个关键局限性:在所有测试场景中,序贯因果纳什均衡(S-CNE)相较于经典斯塔克尔伯格均衡没有任何福利改进。通过50多次蒙特卡洛模拟和手工设计的合成示例,我们证明了带有理性最佳响应的逆向归纳消除了因果层次区分带来的任何战略优势。我们构建了一个理论示例...
#1突破梯度壁垒:揭示用于战略分类的大型语言模型
Breaking the Gradient Barrier: Unveiling Large Language Models for Strategic Classification
战略分类(SC)研究个人或实体如何战略性地修改其特征以获得有利的分类结果。然而,现有的SC方法主要基于线性模型或浅层神经网络,在应用于规模显著增长的现实世界数据集时,尤其是在金融服务和互联网领域,面临着可扩展性和容量方面的重大限制。在本文中,我们研究如何利用大型语言模型设计更具可扩展性和效率的SC框...
#2序贯因果范式博弈:理论、计算与策略信号传导
Sequential Causal Normal Form Games: Theory, Computation, and Strategic Signaling
经典博弈论框架能否扩展以捕捉AI智能体的有限理性和因果推理能力?我们通过将因果标准型博弈(CNFG)扩展到序贯环境来研究这个问题,引入了序贯因果多智能体系统(S-CMAS),该系统在领导者-追随者交互中整合了珀尔的因果层次结构。尽管在理论上很优雅——我们证明了PSPACE完全性,开发了均衡精炼,并建...