arXiv AI 每日精选
共 442 篇论文,9 个分类#1Stitch:多模态扩散Transformer中的无训练位置控制
Stitch: Training-Free Position Control in Multimodal Diffusion Transformers
近年来,文本到图像(T2I)生成模型发展迅速,但准确捕捉“在……上方”或“在……右侧”等空间关系仍是一个持续存在的挑战。早期方法通过外部位置控制改进了空间关系遵循。然而,随着架构不断发展以提升图像质量,这些技术与现代模型不再兼容。我们提出Stitch,这是一种无需训练的方法,通过自动生成的边界框将外部位置控制整合到多模态扩散Transformer(MMDiT)中。Stitch通过在指定边界框内生成单个对象并将它们无缝拼接在一起,生成既空间准确又视觉吸引人的图像。我们发现,目标注意力头能够捕捉在生成过程中隔离和裁剪单个对象所需的信息,而无需完全完成图像生成。我们在PosEval上评估Stitch...
#2OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和移动操作至关重要。为解决这一问题,我们引入OmniRetarget,这是一种基于交互网格的交互保留数据生成引擎,能够显式建模并保留智能体、地形和被操作物体之间关键的空间和接触关系。通过最小化人类和机器人网格之间的拉普拉斯变形,同时强制执行运动学约束,OmniRetarget生成运动学上可行的轨迹。此...
#3拓展视野:利用测量树拓宽人工智能的测量与评估
Branching Out: Broadening AI Measurement and Evaluation with Measurement Trees
本文介绍了“测量树”,这是一类新型指标,旨在将各种构念组合成可解释的多级别被测量对象表示。与产生单一值、向量、曲面或类别的传统指标不同,测量树生成层次有向图,其中每个节点通过用户定义的聚合方法汇总其子节点。为响应近期扩大人工智能系统评估范围的呼吁,测量树提高了指标透明度,并促进了异构证据的整合,例如包括智能体性、业务、能效、社会技术性或安全性信号。我们提供了定义和示例,通过大规模测量实践展示了其实用价值,并提供了相应的开源Python代码。通过将复杂构念的透明测量方法付诸实践,这项工作为更广泛、更可解释的人工智能评估提供了原则性基础。
#1Stitch:多模态扩散Transformer中的无训练位置控制
Stitch: Training-Free Position Control in Multimodal Diffusion Transformers
近年来,文本到图像(T2I)生成模型发展迅速,但准确捕捉“在……上方”或“在……右侧”等空间关系仍是一个持续存在的挑战。早期方法通过外部位置控制改进了空间关系遵循。然而,随着架构不断发展以提升图像质量,这些技术与现代模型不再兼容。我们提出Stitch,这是一种无需训练的方法,通过自动生成的边界框将外...
#2OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和...
#3拓展视野:利用测量树拓宽人工智能的测量与评估
Branching Out: Broadening AI Measurement and Evaluation with Measurement Trees
本文介绍了“测量树”,这是一类新型指标,旨在将各种构念组合成可解释的多级别被测量对象表示。与产生单一值、向量、曲面或类别的传统指标不同,测量树生成层次有向图,其中每个节点通过用户定义的聚合方法汇总其子节点。为响应近期扩大人工智能系统评估范围的呼吁,测量树提高了指标透明度,并促进了异构证据的整合,例如...
还有 177 篇论文
#1Stitch:多模态扩散Transformer中的无训练位置控制
Stitch: Training-Free Position Control in Multimodal Diffusion Transformers
近年来,文本到图像(T2I)生成模型发展迅速,但准确捕捉“在……上方”或“在……右侧”等空间关系仍是一个持续存在的挑战。早期方法通过外部位置控制改进了空间关系遵循。然而,随着架构不断发展以提升图像质量,这些技术与现代模型不再兼容。我们提出Stitch,这是一种无需训练的方法,通过自动生成的边界框将外部位置控制整合到多模态扩散Transformer(MMDiT)中。Stitch通过在指定边界框内生成单个对象并将它们无缝拼接在一起,生成既空间准确又视觉吸引人的图像。我们发现,目标注意力头能够捕捉在生成过程中隔离和裁剪单个对象所需的信息,而无需完全完成图像生成。我们在PosEval上评估Stitch...
#2OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和移动操作至关重要。为解决这一问题,我们引入OmniRetarget,这是一种基于交互网格的交互保留数据生成引擎,能够显式建模并保留智能体、地形和被操作物体之间关键的空间和接触关系。通过最小化人类和机器人网格之间的拉普拉斯变形,同时强制执行运动学约束,OmniRetarget生成运动学上可行的轨迹。此...
#3TimeRewarder:通过逐帧时间距离从被动视频中学习密集奖励
TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance
设计密集奖励对于强化学习(RL)至关重要,但在机器人技术中,这通常需要大量的人工工作且缺乏可扩展性。一种有前景的解决方案是将任务进展视为密集奖励信号,因为它量化了动作随时间推动系统向任务完成迈进的程度。我们提出了TimeRewarder,这是一种简单但有效的奖励学习方法,通过对帧对之间的时间距离进行建模,从被动视频(包括机器人演示和人类视频)中提取进展估计信号。然后,我们展示了TimeRewarder如何提供逐步代理奖励来指导强化学习。在对10个具有挑战性的Meta-World任务进行的综合实验中,我们表明TimeRewarder显著改进了稀疏奖励任务的强化学习,在每个任务仅与环境进行20万次...
#1Stitch:多模态扩散Transformer中的无训练位置控制
Stitch: Training-Free Position Control in Multimodal Diffusion Transformers
近年来,文本到图像(T2I)生成模型发展迅速,但准确捕捉“在……上方”或“在……右侧”等空间关系仍是一个持续存在的挑战。早期方法通过外部位置控制改进了空间关系遵循。然而,随着架构不断发展以提升图像质量,这些技术与现代模型不再兼容。我们提出Stitch,这是一种无需训练的方法,通过自动生成的边界框将外...
#2OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和...
#3TimeRewarder:通过逐帧时间距离从被动视频中学习密集奖励
TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance
设计密集奖励对于强化学习(RL)至关重要,但在机器人技术中,这通常需要大量的人工工作且缺乏可扩展性。一种有前景的解决方案是将任务进展视为密集奖励信号,因为它量化了动作随时间推动系统向任务完成迈进的程度。我们提出了TimeRewarder,这是一种简单但有效的奖励学习方法,通过对帧对之间的时间距离进行...
还有 176 篇论文
#1Stitch:多模态扩散Transformer中的无训练位置控制
Stitch: Training-Free Position Control in Multimodal Diffusion Transformers
近年来,文本到图像(T2I)生成模型发展迅速,但准确捕捉“在……上方”或“在……右侧”等空间关系仍是一个持续存在的挑战。早期方法通过外部位置控制改进了空间关系遵循。然而,随着架构不断发展以提升图像质量,这些技术与现代模型不再兼容。我们提出Stitch,这是一种无需训练的方法,通过自动生成的边界框将外部位置控制整合到多模态扩散Transformer(MMDiT)中。Stitch通过在指定边界框内生成单个对象并将它们无缝拼接在一起,生成既空间准确又视觉吸引人的图像。我们发现,目标注意力头能够捕捉在生成过程中隔离和裁剪单个对象所需的信息,而无需完全完成图像生成。我们在PosEval上评估Stitch...
#2学习具有SIM(3)等变性的可泛化形状补全
Learning Generalizable Shape Completion with SIM(3) Equivariance
3D形状补全方法通常假设扫描数据已预对齐到规范坐标系。这会泄露姿态和尺度线索,网络可能利用这些线索记忆绝对位置而非推断内在几何结构。当真实数据中不存在这种对齐时,性能会大幅下降。我们认为,稳健的泛化能力需要对相似变换群SIM(3)具有架构等变性,这样模型才能对姿态和尺度保持无关性。遵循这一原则,我们提出首个SIM(3)等变形状补全网络,其模块化层依次对特征进行规范化、对相似变换不变几何结构进行推理,并恢复原始坐标系。在消除隐藏线索的去偏评估协议下,我们的模型在PCN基准测试上优于等变和数据增强基线模型。它还在真实驾驶和室内扫描数据上创下新的跨域记录,将KITTI数据集上的最小匹配距离降低17%...
#3先见之明:揭秘语言预训练中的LLM视觉先验
Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training
大型语言模型(LLMs)尽管仅在文本上进行训练,却出人意料地发展出丰富的视觉先验。这些先验使得通过相对少量的多模态数据就能解锁视觉任务的潜在视觉能力,在某些情况下,甚至无需见过图像就能执行视觉任务。通过系统分析,我们揭示视觉先验——即在语言预训练过程中获得的关于视觉世界的隐含、涌现知识——由具有独特缩放趋势和起源的可分离感知先验和推理先验组成。我们表明,LLM的潜在视觉推理能力主要通过在以推理为中心的数据(如代码、数学、学术内容)上进行预训练而发展,并逐步扩展。这种从语言预训练中获得的推理先验具有可迁移性,可普遍应用于视觉推理。相比之下,感知先验从广泛的语料库中更分散地涌现,且感知能力对视觉编...
#1Stitch:多模态扩散Transformer中的无训练位置控制
Stitch: Training-Free Position Control in Multimodal Diffusion Transformers
近年来,文本到图像(T2I)生成模型发展迅速,但准确捕捉“在……上方”或“在……右侧”等空间关系仍是一个持续存在的挑战。早期方法通过外部位置控制改进了空间关系遵循。然而,随着架构不断发展以提升图像质量,这些技术与现代模型不再兼容。我们提出Stitch,这是一种无需训练的方法,通过自动生成的边界框将外...
#2学习具有SIM(3)等变性的可泛化形状补全
Learning Generalizable Shape Completion with SIM(3) Equivariance
3D形状补全方法通常假设扫描数据已预对齐到规范坐标系。这会泄露姿态和尺度线索,网络可能利用这些线索记忆绝对位置而非推断内在几何结构。当真实数据中不存在这种对齐时,性能会大幅下降。我们认为,稳健的泛化能力需要对相似变换群SIM(3)具有架构等变性,这样模型才能对姿态和尺度保持无关性。遵循这一原则,我们...
#3先见之明:揭秘语言预训练中的LLM视觉先验
Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training
大型语言模型(LLMs)尽管仅在文本上进行训练,却出人意料地发展出丰富的视觉先验。这些先验使得通过相对少量的多模态数据就能解锁视觉任务的潜在视觉能力,在某些情况下,甚至无需见过图像就能执行视觉任务。通过系统分析,我们揭示视觉先验——即在语言预训练过程中获得的关于视觉世界的隐含、涌现知识——由具有独特...
还有 135 篇论文
#1大规模搜索难以翻译的测试示例
Searching for Difficult-to-Translate Test Examples at Scale
自然语言处理模型需要具有足够挑战性的测试数据。一个示例的难度与其来源主题(“种子主题”)相关。主题与其实例难度之间的关系本质上是随机的:一个关于困难主题的示例可能碰巧很容易,反之亦然。在互联网的规模下,存在数万个潜在主题,通过在所有主题上抽取和评估大量示例来找到最困难的主题在计算上是不可行的。我们将此任务形式化,并将其视为一个多臂老虎机问题。在此框架中,每个主题都是一个“臂”,拉动一个臂(需要成本)包括抽取单个示例、对其进行评估并测量其难度。目标是在固定的计算预算内高效识别最困难的主题。我们阐述了为机器翻译任务寻找困难示例的老虎机问题设置。我们发现各种老虎机策略远远优于暴力搜索最具挑战性主题等...
#2门洛:从偏好到精通——评估和建模47种语言的类母语质量
MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages
确保大型语言模型(LLM)在多种语言中的类母语响应质量具有挑战性。为解决此问题,我们引入MENLO,这是一个基于受众设计启发机制,将类母语响应质量评估操作化的框架。利用MENLO,我们创建了一个包含6,423个人工注释的提示-响应偏好对的数据集,涵盖47种语言变体中具有高注释者间一致性的四个质量维度。我们的评估表明,零样本LLM评判者从 pairwise 评估和我们结构化的注释标准中显著受益,但在我们的数据集上仍逊于人工注释者。我们通过强化学习、奖励塑造和多任务学习方法进行微调,展示了显著的改进。此外,我们表明,经过RL训练的评判者可以作为生成式奖励模型来增强LLMs的多语言能力,尽管与人类判...
#3解构大型语言模型生成的翻译基准中的自我偏见
Deconstructing Self-Bias in LLM-generated Translation Benchmarks
随着大型语言模型(LLMs)开始在现有基准测试中饱和,使用LLMs创建自动化基准测试(LLM作为基准测试)已成为一种可扩展的替代方案,以替代缓慢且昂贵的人工整理。虽然这些生成的测试集有潜力以低成本对模型进行排名,但我们展示了一个关键缺陷。LLM生成的基准测试系统性地偏向创建该基准测试的模型,它们在低资源语言到英语的翻译任务中表现出自我偏见。我们在LLMs翻译的自动基准测试中展示了三个关键发现:首先,这种偏见源于两个来源:生成的测试数据(LLM作为测试集)和评估方法(LLM作为评估器),它们的组合会放大这种效应。其次,LLM作为基准测试中的自我偏见在很大程度上受模型在源语言中的生成能力影响。例如...
#1大规模搜索难以翻译的测试示例
Searching for Difficult-to-Translate Test Examples at Scale
自然语言处理模型需要具有足够挑战性的测试数据。一个示例的难度与其来源主题(“种子主题”)相关。主题与其实例难度之间的关系本质上是随机的:一个关于困难主题的示例可能碰巧很容易,反之亦然。在互联网的规模下,存在数万个潜在主题,通过在所有主题上抽取和评估大量示例来找到最困难的主题在计算上是不可行的。我们将...
#2门洛:从偏好到精通——评估和建模47种语言的类母语质量
MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages
确保大型语言模型(LLM)在多种语言中的类母语响应质量具有挑战性。为解决此问题,我们引入MENLO,这是一个基于受众设计启发机制,将类母语响应质量评估操作化的框架。利用MENLO,我们创建了一个包含6,423个人工注释的提示-响应偏好对的数据集,涵盖47种语言变体中具有高注释者间一致性的四个质量维度...
#3解构大型语言模型生成的翻译基准中的自我偏见
Deconstructing Self-Bias in LLM-generated Translation Benchmarks
随着大型语言模型(LLMs)开始在现有基准测试中饱和,使用LLMs创建自动化基准测试(LLM作为基准测试)已成为一种可扩展的替代方案,以替代缓慢且昂贵的人工整理。虽然这些生成的测试集有潜力以低成本对模型进行排名,但我们展示了一个关键缺陷。LLM生成的基准测试系统性地偏向创建该基准测试的模型,它们在低...
还有 103 篇论文
#1OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和移动操作至关重要。为解决这一问题,我们引入OmniRetarget,这是一种基于交互网格的交互保留数据生成引擎,能够显式建模并保留智能体、地形和被操作物体之间关键的空间和接触关系。通过最小化人类和机器人网格之间的拉普拉斯变形,同时强制执行运动学约束,OmniRetarget生成运动学上可行的轨迹。此...
#2TimeRewarder:通过逐帧时间距离从被动视频中学习密集奖励
TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance
设计密集奖励对于强化学习(RL)至关重要,但在机器人技术中,这通常需要大量的人工工作且缺乏可扩展性。一种有前景的解决方案是将任务进展视为密集奖励信号,因为它量化了动作随时间推动系统向任务完成迈进的程度。我们提出了TimeRewarder,这是一种简单但有效的奖励学习方法,通过对帧对之间的时间距离进行建模,从被动视频(包括机器人演示和人类视频)中提取进展估计信号。然后,我们展示了TimeRewarder如何提供逐步代理奖励来指导强化学习。在对10个具有挑战性的Meta-World任务进行的综合实验中,我们表明TimeRewarder显著改进了稀疏奖励任务的强化学习,在每个任务仅与环境进行20万次...
#3OceanGym:水下具身智能体的基准环境
OceanGym: A Benchmark Environment for Underwater Embodied Agents
我们介绍OceanGym,这是首个面向海洋水下具身智能体的综合基准,旨在推动人工智能在最具挑战性的现实环境之一中的发展。与陆地或空中领域不同,水下环境存在极端的感知和决策挑战,包括低能见度、动态洋流等,使得智能体的有效部署异常困难。OceanGym包含八个逼真的任务领域和一个由多模态大型语言模型(MLLM)驱动的统一智能体框架,该框架整合了感知、记忆和顺序决策。智能体需要理解光学和声学数据,在这些恶劣条件下自主探索复杂环境并完成长期目标。大量实验表明,最先进的MLLM驱动智能体与人类专家之间存在巨大差距,凸显了海洋水下环境中感知、规划和适应性方面持续存在的困难。通过提供高保真、设计严谨的平台,...
#1OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和...
#2TimeRewarder:通过逐帧时间距离从被动视频中学习密集奖励
TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance
设计密集奖励对于强化学习(RL)至关重要,但在机器人技术中,这通常需要大量的人工工作且缺乏可扩展性。一种有前景的解决方案是将任务进展视为密集奖励信号,因为它量化了动作随时间推动系统向任务完成迈进的程度。我们提出了TimeRewarder,这是一种简单但有效的奖励学习方法,通过对帧对之间的时间距离进行...
#3OceanGym:水下具身智能体的基准环境
OceanGym: A Benchmark Environment for Underwater Embodied Agents
我们介绍OceanGym,这是首个面向海洋水下具身智能体的综合基准,旨在推动人工智能在最具挑战性的现实环境之一中的发展。与陆地或空中领域不同,水下环境存在极端的感知和决策挑战,包括低能见度、动态洋流等,使得智能体的有效部署异常困难。OceanGym包含八个逼真的任务领域和一个由多模态大型语言模型(M...
还有 25 篇论文
#1龙宝宝:Transformer与大脑模型之间缺失的一环
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
自约翰·冯·诺依曼和艾伦·图灵以来,计算系统与大脑之间的关系一直是开创性理论家的灵感来源。均匀、无标度的生物网络(如大脑)具有强大的特性,包括随时间推移进行泛化,这是机器学习在实现通用推理模型道路上的主要障碍。我们提出了“龙雏”(BDH),这是一种新的大型语言模型架构,它基于由n个局部相互作用的神经元粒子组成的无标度生物启发网络。BDH结合了强大的理论基础和固有的可解释性,同时不牺牲类Transformer的性能。BDH是一种实用、高性能的最先进注意力基状态空间序列学习架构。除了作为图模型外,BDH还采用了GPU友好的公式。它表现出类Transformer的缩放定律:在相同参数数量(1000万...
#2神经网络和算子的向量值再生核巴拿赫空间
Vector-Valued Reproducing Kernel Banach Spaces for Neural Networks and Operators
最近,人们对表征神经网络背后的函数空间越来越感兴趣。虽然浅层和深层标量值神经网络已与标量值再生核巴拿赫空间(RKBS)相关联,但在RKBS框架下,$\mathbb{R}^d$值神经网络和神经算子模型的理解仍较为有限。为解决这一空白,我们提出了向量值RKBS(vv-RKBS)的一般定义,该定义内在地包含了相关的再生核。我们的构造通过避免诸如对称核域、有限维输出空间、自反性或可分性等限制性假设,扩展了现有定义,同时仍能恢复向量值再生核希尔伯特空间(vv-RKHS)的常见性质。然后,我们证明浅层$\mathbb{R}^d$值神经网络是特定vv-RKBS的元素,即积分和神经vv-RKBS的一个实例。为...
#3简单生存老虎机问题中的沙袋策略
Sandbagging in a Simple Survival Bandit Problem
评估前沿人工智能系统的安全性是一个日益重要的问题,有助于衡量此类模型的能力并在部署前识别风险。然而,人们已经认识到,如果人工智能代理意识到自己正在被评估,它们可能会故意隐藏危险能力,或在安全相关任务中故意表现出次优性能,以便被释放并避免被停用或重新训练。这种策略性欺骗——通常被称为“沙袋行为”——可能会破坏安全评估的完整性。因此,找到能够区分真正缺乏能力的行为模式和与沙袋行为一致的行为模式的方法具有重要价值。在本文中,我们受最近开发的生存老虎机框架的启发,开发了一个顺序决策任务中策略性欺骗的简单模型。我们从理论上证明,这个问题会诱导最优理性代理产生沙袋行为,并构建了一个统计测试,用于从一系列测...
#1龙宝宝:Transformer与大脑模型之间缺失的一环
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
自约翰·冯·诺依曼和艾伦·图灵以来,计算系统与大脑之间的关系一直是开创性理论家的灵感来源。均匀、无标度的生物网络(如大脑)具有强大的特性,包括随时间推移进行泛化,这是机器学习在实现通用推理模型道路上的主要障碍。我们提出了“龙雏”(BDH),这是一种新的大型语言模型架构,它基于由n个局部相互作用的神经...
#2神经网络和算子的向量值再生核巴拿赫空间
Vector-Valued Reproducing Kernel Banach Spaces for Neural Networks and Operators
最近,人们对表征神经网络背后的函数空间越来越感兴趣。虽然浅层和深层标量值神经网络已与标量值再生核巴拿赫空间(RKBS)相关联,但在RKBS框架下,$\mathbb{R}^d$值神经网络和神经算子模型的理解仍较为有限。为解决这一空白,我们提出了向量值RKBS(vv-RKBS)的一般定义,该定义内在地包...
#3简单生存老虎机问题中的沙袋策略
Sandbagging in a Simple Survival Bandit Problem
评估前沿人工智能系统的安全性是一个日益重要的问题,有助于衡量此类模型的能力并在部署前识别风险。然而,人们已经认识到,如果人工智能代理意识到自己正在被评估,它们可能会故意隐藏危险能力,或在安全相关任务中故意表现出次优性能,以便被释放并避免被停用或重新训练。这种策略性欺骗——通常被称为“沙袋行为”——可...
还有 16 篇论文
#1OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和移动操作至关重要。为解决这一问题,我们引入OmniRetarget,这是一种基于交互网格的交互保留数据生成引擎,能够显式建模并保留智能体、地形和被操作物体之间关键的空间和接触关系。通过最小化人类和机器人网格之间的拉普拉斯变形,同时强制执行运动学约束,OmniRetarget生成运动学上可行的轨迹。此...
#2基于Transformer的BiGAN在PMU数据中时空异常的无监督检测
Unsupervised Detection of Spatiotemporal Anomalies in PMU Data Using Transformer-Based BiGAN
确保电网弹性需要及时且无监督地检测同步相量数据流中的异常。我们提出了T-BiGAN,这是一种新颖的框架,它将窗口注意力Transformer集成到双向生成对抗网络(BiGAN)中以应对这一挑战。其自注意力编码器-解码器架构捕获电网中复杂的时空依赖关系,而联合判别器则强制执行循环一致性,使学习到的潜在空间与真实数据分布对齐。使用结合重构误差、潜在空间漂移和判别器置信度的自适应分数实时标记异常。在真实的硬件在环PMU基准上进行评估,T-BiGAN实现了0.95的ROC-AUC和0.996的平均精度,显著优于领先的有监督和无监督方法。它在检测细微的频率和电压偏差方面表现出特别的优势,证明了其在不依赖...
#3通过时滞自适应神经算子近似预测器实现含未知时滞非线性系统的镇定
Stabilization of nonlinear systems with unknown delays via delay-adaptive neural operator approximate predictors
本文为非线性系统延迟自适应控制中的近似预测器建立了首个严格稳定性保证,解决了无法获得精确预测器的实际应用中的关键挑战。我们分析了两种场景:(i)当驱动输入可直接测量时,以及(ii)当驱动输入在线估计时。对于可测量输入的情况,我们证明了半全局实用渐近稳定性,其显式边界与近似误差$\epsilon$成正比。对于不可测量输入的情况,我们证明了局部实用渐近稳定性,吸引域明确依赖于初始延迟估计和预测器近似误差。为了连接理论与实践,我们表明神经算子——一类灵活的基于神经网络的近似器——可以实现任意小的近似误差,从而满足我们稳定性定理的条件。在两个非线性基准系统(生物蛋白质激活剂/抑制剂模型和微生物生长恒化...
#1OmniRetarget:用于类人机器人全身移动操作与场景交互的交互保留数据生成
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
教授人形机器人复杂技能的主要范式是将人类动作重新定位为运动学参考,以训练强化学习(RL)策略。然而,现有的重定位流程往往难以应对人类与机器人之间显著的形态差异,会产生诸如滑脚和穿透等物理上不合理的伪影。更重要的是,常见的重定位方法忽略了丰富的人与物体及人与环境的交互,而这些交互对于富有表现力的移动和...
#2基于Transformer的BiGAN在PMU数据中时空异常的无监督检测
Unsupervised Detection of Spatiotemporal Anomalies in PMU Data Using Transformer-Based BiGAN
确保电网弹性需要及时且无监督地检测同步相量数据流中的异常。我们提出了T-BiGAN,这是一种新颖的框架,它将窗口注意力Transformer集成到双向生成对抗网络(BiGAN)中以应对这一挑战。其自注意力编码器-解码器架构捕获电网中复杂的时空依赖关系,而联合判别器则强制执行循环一致性,使学习到的潜在...
#3通过时滞自适应神经算子近似预测器实现含未知时滞非线性系统的镇定
Stabilization of nonlinear systems with unknown delays via delay-adaptive neural operator approximate predictors
本文为非线性系统延迟自适应控制中的近似预测器建立了首个严格稳定性保证,解决了无法获得精确预测器的实际应用中的关键挑战。我们分析了两种场景:(i)当驱动输入可直接测量时,以及(ii)当驱动输入在线估计时。对于可测量输入的情况,我们证明了半全局实用渐近稳定性,其显式边界与近似误差$\epsilon$成正...
还有 4 篇论文
#1龙宝宝:Transformer与大脑模型之间缺失的一环
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
自约翰·冯·诺依曼和艾伦·图灵以来,计算系统与大脑之间的关系一直是开创性理论家的灵感来源。均匀、无标度的生物网络(如大脑)具有强大的特性,包括随时间推移进行泛化,这是机器学习在实现通用推理模型道路上的主要障碍。我们提出了“龙雏”(BDH),这是一种新的大型语言模型架构,它基于由n个局部相互作用的神经元粒子组成的无标度生物启发网络。BDH结合了强大的理论基础和固有的可解释性,同时不牺牲类Transformer的性能。BDH是一种实用、高性能的最先进注意力基状态空间序列学习架构。除了作为图模型外,BDH还采用了GPU友好的公式。它表现出类Transformer的缩放定律:在相同参数数量(1000万...
#2单通道脑电图中的实时噪声检测与分类:一种针对肌电、白噪声和眼电伪影的轻量级机器学习方法
Real-time Noise Detection and Classification in Single-Channel EEG: A Lightweight Machine Learning Approach for EMG, White Noise, and EOG Artifacts
在现实环境中,脑电图(EEG)伪影检测面临诸多重大挑战,例如多通道方法存在计算效率低下的问题,对同步噪声的鲁棒性较差,以及深度学习模型在准确性和复杂性之间需要进行权衡。我们提出了一种混合频谱 - 时间框架,用于单通道EEG中眼电(EOG)、肌电(EMG)和白噪声伪影的实时检测与分类。与其他方法不同,该方法结合了时域低通滤波(针对低频EOG)和频域功率谱密度(PSD)分析(捕捉广谱EMG),随后进行主成分分析(PCA)优化的特征融合,以在保留判别信息的同时最大限度地减少冗余。这种特征工程策略使得轻量级多层感知器(MLP)架构能够超越先进的卷积神经网络(CNNs)和循环神经网络(RNNs),在低信...
#3CIMNAS:内存计算感知神经架构搜索联合框架
CIMNAS: A Joint Framework for Compute-In-Memory-Aware Neural Architecture Search
为了在人工智能(AI)应用的基于存内计算(CIM)的神经网络加速器中最大化硬件效率和性能准确性,共同优化软件和硬件设计参数至关重要。由于参数数量庞大且相互依赖关系复杂,手动调优不切实际。为了有效自动化基于CIM的神经网络加速器的设计和优化,可以应用硬件感知神经架构搜索(HW-NAS)技术。本研究介绍了CIMNAS,这是一个用于CIM架构的联合模型-量化-硬件优化框架。CIMNAS同时搜索软件参数、量化策略和广泛的硬件参数,整合了器件级、电路级和架构级的协同优化。CIMNAS实验在9.9×10^85个潜在参数组合的搜索空间上进行,以MobileNet模型为基准和基于RRAM的CIM架构。在Ima...
#1龙宝宝:Transformer与大脑模型之间缺失的一环
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
自约翰·冯·诺依曼和艾伦·图灵以来,计算系统与大脑之间的关系一直是开创性理论家的灵感来源。均匀、无标度的生物网络(如大脑)具有强大的特性,包括随时间推移进行泛化,这是机器学习在实现通用推理模型道路上的主要障碍。我们提出了“龙雏”(BDH),这是一种新的大型语言模型架构,它基于由n个局部相互作用的神经...
#2单通道脑电图中的实时噪声检测与分类:一种针对肌电、白噪声和眼电伪影的轻量级机器学习方法
Real-time Noise Detection and Classification in Single-Channel EEG: A Lightweight Machine Learning Approach for EMG, White Noise, and EOG Artifacts
在现实环境中,脑电图(EEG)伪影检测面临诸多重大挑战,例如多通道方法存在计算效率低下的问题,对同步噪声的鲁棒性较差,以及深度学习模型在准确性和复杂性之间需要进行权衡。我们提出了一种混合频谱 - 时间框架,用于单通道EEG中眼电(EOG)、肌电(EMG)和白噪声伪影的实时检测与分类。与其他方法不同,...
#3CIMNAS:内存计算感知神经架构搜索联合框架
CIMNAS: A Joint Framework for Compute-In-Memory-Aware Neural Architecture Search
为了在人工智能(AI)应用的基于存内计算(CIM)的神经网络加速器中最大化硬件效率和性能准确性,共同优化软件和硬件设计参数至关重要。由于参数数量庞大且相互依赖关系复杂,手动调优不切实际。为了有效自动化基于CIM的神经网络加速器的设计和优化,可以应用硬件感知神经架构搜索(HW-NAS)技术。本研究介绍...
还有 1 篇论文
#1通过单比特反馈实现博弈中的帕累托最优
Achieving Pareto Optimality in Games via Single-bit Feedback
多智能体系统中的高效协调往往会带来高昂的通信开销或较慢的收敛速度,使得可扩展的福利优化变得困难。我们提出了用于帕累托有效结果的单比特协调动态(SBC-PE),这是一种去中心化学习算法,每个智能体每轮仅需一个单比特的满意度信号。尽管具有这种极高的效率,SBC-PE仍能保证在任意有限博弈中收敛到精确的最优解。我们建立了明确的遗憾界,表明期望遗憾仅随时间范围呈对数增长,即O(log T)。与先前的基于收益或 bandit 风格的规则相比,SBC-PE 独特地结合了最小信号传输、普遍适用性和有限时间保证。这些结果表明,在最小通信约束下可以实现可扩展的福利优化。
#1通过单比特反馈实现博弈中的帕累托最优
Achieving Pareto Optimality in Games via Single-bit Feedback
多智能体系统中的高效协调往往会带来高昂的通信开销或较慢的收敛速度,使得可扩展的福利优化变得困难。我们提出了用于帕累托有效结果的单比特协调动态(SBC-PE),这是一种去中心化学习算法,每个智能体每轮仅需一个单比特的满意度信号。尽管具有这种极高的效率,SBC-PE仍能保证在任意有限博弈中收敛到精确的最...