arXiv AI 每日精选
233 篇论文#1MAGMA:基于多图的AI智能体智能记忆架构
MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents
记忆增强生成(MAG)通过外部记忆扩展大型语言模型以支持长上下文推理,但现有方法在很大程度上依赖于整体记忆存储上的语义相似性,将时间、因果和实体信息混在一起。这种设计限制了可解释性以及查询意图与检索证据之间的对齐,导致推理准确性欠佳。在本文中,我们提出了MAGMA,这是一种多图智能体记忆架构,它跨正交的语义、时间、因果和实体图表示每个记忆项。MAGMA将检索制定为在这些关系视图上的策略引导遍历,实现查询自适应选择和结构化上下文构建。通过将记忆表示与检索逻辑解耦,MAGMA提供了透明的推理路径和对检索的细粒度控制。在LoCoMo和LongMemEval上的实验表明,MAGMA在长时推理任务中持续...
#2Multi-RADS 合成放射学报告数据集以及41种开放权重和专有语言模型的头对头基准测试
Multi-RADS Synthetic Radiology Report Dataset and Head-to-Head Benchmarking of 41 Open-Weight and Proprietary Language Models
背景:报告和数据系统(RADS)使放射学风险沟通标准化,但由于指南复杂、输出格式限制以及跨RADS框架和模型大小的基准测试有限,从叙述性报告中自动分配RADS具有挑战性。目的:创建RXL-RADSet(一个经过放射科医生验证的合成多RADS基准),并比较开放权重小型语言模型(SLMs)与专有模型在RADS分配中的有效性和准确性。材料与方法:RXL-RADSet包含10种RADS(BI-RADS、CAD-RADS、GB-RADS、LI-RADS、Lung-RADS、NI-RADS、O-RADS、PI-RADS、TI-RADS、VI-RADS)和多种模态的1600份合成放射学报告。报告由大型语言模...
#3声呐时刻:音频语言模型在音频地理定位中的基准测试
The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization
地理定位旨在推断给定信号的地理来源。在计算机视觉领域,地理定位已成为组合推理的一项高要求基准,并且与公共安全相关。相比之下,音频地理定位的进展因缺乏高质量的音频-位置对而受到限制。为解决这一差距,我们引入AGL1K,这是首个面向音频语言模型(ALMs)的音频地理定位基准,覆盖72个国家和地区。为从众包平台中提取可靠的可定位样本,我们提出了音频可定位性指标,用于量化每个录音的信息性,最终得到1444个精选音频片段。对16个音频语言模型的评估表明,音频语言模型已具备音频地理定位能力。我们发现闭源模型显著优于开源模型,且语言线索往往作为预测的主要支撑。我们进一步分析了音频语言模型的推理轨迹、区域偏差...
#1MAGMA:基于多图的AI智能体智能记忆架构
MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents
记忆增强生成(MAG)通过外部记忆扩展大型语言模型以支持长上下文推理,但现有方法在很大程度上依赖于整体记忆存储上的语义相似性,将时间、因果和实体信息混在一起。这种设计限制了可解释性以及查询意图与检索证据之间的对齐,导致推理准确性欠佳。在本文中,我们提出了MAGMA,这是一种多图智能体记忆架构,它跨正...
#2Multi-RADS 合成放射学报告数据集以及41种开放权重和专有语言模型的头对头基准测试
Multi-RADS Synthetic Radiology Report Dataset and Head-to-Head Benchmarking of 41 Open-Weight and Proprietary Language Models
背景:报告和数据系统(RADS)使放射学风险沟通标准化,但由于指南复杂、输出格式限制以及跨RADS框架和模型大小的基准测试有限,从叙述性报告中自动分配RADS具有挑战性。目的:创建RXL-RADSet(一个经过放射科医生验证的合成多RADS基准),并比较开放权重小型语言模型(SLMs)与专有模型在R...
#3声呐时刻:音频语言模型在音频地理定位中的基准测试
The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization
地理定位旨在推断给定信号的地理来源。在计算机视觉领域,地理定位已成为组合推理的一项高要求基准,并且与公共安全相关。相比之下,音频地理定位的进展因缺乏高质量的音频-位置对而受到限制。为解决这一差距,我们引入AGL1K,这是首个面向音频语言模型(ALMs)的音频地理定位基准,覆盖72个国家和地区。为从众...
还有 97 篇论文
#1Multi-RADS 合成放射学报告数据集以及41种开放权重和专有语言模型的头对头基准测试
Multi-RADS Synthetic Radiology Report Dataset and Head-to-Head Benchmarking of 41 Open-Weight and Proprietary Language Models
背景:报告和数据系统(RADS)使放射学风险沟通标准化,但由于指南复杂、输出格式限制以及跨RADS框架和模型大小的基准测试有限,从叙述性报告中自动分配RADS具有挑战性。目的:创建RXL-RADSet(一个经过放射科医生验证的合成多RADS基准),并比较开放权重小型语言模型(SLMs)与专有模型在RADS分配中的有效性和准确性。材料与方法:RXL-RADSet包含10种RADS(BI-RADS、CAD-RADS、GB-RADS、LI-RADS、Lung-RADS、NI-RADS、O-RADS、PI-RADS、TI-RADS、VI-RADS)和多种模态的1600份合成放射学报告。报告由大型语言模...
#2微调小型语言模型作为高效的企业搜索相关性标注器
Fine-tuning Small Language Models as Efficient Enterprise Search Relevance Labelers
在企业搜索中,大规模构建高质量数据集仍是一项核心挑战,原因在于获取标注数据存在困难。为解决这一挑战,我们提出一种高效方法来微调小型语言模型(SLMs)以实现准确的相关性标注,从而实现高通量、特定领域的标注,其质量可与最先进的大型语言模型(LLMs)相媲美,甚至更优。为克服企业领域缺乏高质量且可访问数据集的问题,我们的方法利用合成数据生成。具体而言,我们使用LLM从种子文档合成逼真的企业查询,应用BM25检索难负例,并通过教师LLM分配相关性分数。然后将生成的数据集蒸馏到SLM中,得到一个紧凑的相关性标注器。我们在由训练有素的人类标注者标注的923个企业查询-文档对组成的高质量基准上评估了我们的...
#3UltraLogic:通过大规模数据合成和双极浮点奖励增强LLM推理
UltraLogic: Enhancing LLM Reasoning through Large-Scale Data Synthesis and Bipolar Float Reward
尽管大型语言模型(LLMs)在自然语言处理方面展现出巨大潜力,但需要多步骤逻辑、规划和验证的复杂通用推理仍是一个关键瓶颈。虽然基于可验证奖励的强化学习(RLVR)在特定领域取得了成功,但该领域缺乏用于通用推理的大规模、高质量且难度校准的数据。为解决这一问题,我们提出了UltraLogic框架,该框架通过基于代码的求解方法将问题的逻辑核心与其自然语言表达解耦,以实现高质量数据的自动化生成。该框架包含数百种独特的任务类型和一个跨十个难度级别的自动化校准流程。此外,为缓解二元奖励稀疏性和非负奖励陷阱,我们引入了双极浮动奖励(BFR)机制,利用分级惩罚有效区分完美响应与存在逻辑缺陷的响应。我们的实验表...
#1Multi-RADS 合成放射学报告数据集以及41种开放权重和专有语言模型的头对头基准测试
Multi-RADS Synthetic Radiology Report Dataset and Head-to-Head Benchmarking of 41 Open-Weight and Proprietary Language Models
背景:报告和数据系统(RADS)使放射学风险沟通标准化,但由于指南复杂、输出格式限制以及跨RADS框架和模型大小的基准测试有限,从叙述性报告中自动分配RADS具有挑战性。目的:创建RXL-RADSet(一个经过放射科医生验证的合成多RADS基准),并比较开放权重小型语言模型(SLMs)与专有模型在R...
#2微调小型语言模型作为高效的企业搜索相关性标注器
Fine-tuning Small Language Models as Efficient Enterprise Search Relevance Labelers
在企业搜索中,大规模构建高质量数据集仍是一项核心挑战,原因在于获取标注数据存在困难。为解决这一挑战,我们提出一种高效方法来微调小型语言模型(SLMs)以实现准确的相关性标注,从而实现高通量、特定领域的标注,其质量可与最先进的大型语言模型(LLMs)相媲美,甚至更优。为克服企业领域缺乏高质量且可访问数...
#3UltraLogic:通过大规模数据合成和双极浮点奖励增强LLM推理
UltraLogic: Enhancing LLM Reasoning through Large-Scale Data Synthesis and Bipolar Float Reward
尽管大型语言模型(LLMs)在自然语言处理方面展现出巨大潜力,但需要多步骤逻辑、规划和验证的复杂通用推理仍是一个关键瓶颈。虽然基于可验证奖励的强化学习(RLVR)在特定领域取得了成功,但该领域缺乏用于通用推理的大规模、高质量且难度校准的数据。为解决这一问题,我们提出了UltraLogic框架,该框架...
还有 87 篇论文
#1图不确定性下的反事实公平性
Counterfactual Fairness with Graph Uncertainty
评估机器学习(ML)模型偏差是构建可信且稳健的机器学习系统的关键。反事实公平性(CF)审计允许在因果框架下测量机器学习模型的偏差,但其结论依赖于单一因果图,而在现实场景中,该因果图很少能被确切知晓。我们提出了带有图不确定性的反事实公平性(CF-GU),这是一种将因果图指定的不确定性纳入反事实公平性的偏差评估程序。CF-GU(i)在领域知识约束下对因果发现算法进行自助抽样,以生成一组合理的有向无环图(DAGs);(ii)利用归一化香农熵量化图不确定性;(iii)提供反事实公平性指标的置信界。在合成数据上的实验表明,不同的领域知识假设如何支持或反驳反事实公平性审计,而在真实世界数据(COMPAS和...
#2AnatomiX:一种用于胸部X光片解读的解剖学感知型接地多模态大型语言模型
AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation
多模态医疗大型语言模型在胸部X光片解读方面已展现出令人瞩目的进展,但在空间推理和解剖学理解方面仍面临挑战。尽管现有的锚定技术提高了整体性能,但它们往往无法建立真正的解剖学对应关系,导致在医疗领域出现错误的解剖学理解。为解决这一差距,我们引入AnatomiX,这是一种专为基于解剖学的胸部X光片解读而明确设计的多任务多模态大型语言模型。受放射学工作流程的启发,AnatomiX采用两阶段方法:首先识别解剖结构并提取其特征,然后利用大型语言模型执行各种下游任务,如短语锚定、报告生成、视觉问答和图像理解。在多个基准上的大量实验表明,AnatomiX实现了卓越的解剖学推理,与现有方法相比,在解剖学锚定、短...
#3去中心化自回归生成
Decentralized Autoregressive Generation
我们对自回归生成的去中心化进行了理论分析。我们通过将概率生成速度表示为专家流的线性组合,定义了去中心化离散流匹配目标。我们还进行了实验,证明了跨多种基准的多模态语言模型的去中心化和中心化训练设置之间的等价性。具体来说,我们比较了两种不同的范式:LLaVA和InternVL 2.5-1B,后者使用固定的CLIP视觉编码器,并在指令调优阶段执行全参数微调(ViT+MLP+LLM)。
#1图不确定性下的反事实公平性
Counterfactual Fairness with Graph Uncertainty
评估机器学习(ML)模型偏差是构建可信且稳健的机器学习系统的关键。反事实公平性(CF)审计允许在因果框架下测量机器学习模型的偏差,但其结论依赖于单一因果图,而在现实场景中,该因果图很少能被确切知晓。我们提出了带有图不确定性的反事实公平性(CF-GU),这是一种将因果图指定的不确定性纳入反事实公平性的...
#2AnatomiX:一种用于胸部X光片解读的解剖学感知型接地多模态大型语言模型
AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation
多模态医疗大型语言模型在胸部X光片解读方面已展现出令人瞩目的进展,但在空间推理和解剖学理解方面仍面临挑战。尽管现有的锚定技术提高了整体性能,但它们往往无法建立真正的解剖学对应关系,导致在医疗领域出现错误的解剖学理解。为解决这一差距,我们引入AnatomiX,这是一种专为基于解剖学的胸部X光片解读而明...
#3去中心化自回归生成
Decentralized Autoregressive Generation
我们对自回归生成的去中心化进行了理论分析。我们通过将概率生成速度表示为专家流的线性组合,定义了去中心化离散流匹配目标。我们还进行了实验,证明了跨多种基准的多模态语言模型的去中心化和中心化训练设置之间的等价性。具体来说,我们比较了两种不同的范式:LLaVA和InternVL 2.5-1B,后者使用固定...
还有 65 篇论文
#1UniCorn:通过自我生成监督实现自我改进的统一多模态模型
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
尽管统一多模态模型(UMMs)在跨模态理解方面取得了显著成功,但在利用这种内部知识进行高质量生成方面仍存在巨大差距。我们将这种差异形式化为传导性失语症,即模型能够准确解释多模态输入,但难以将这种理解转化为忠实且可控的合成内容。为解决这一问题,我们提出了UniCorn,这是一个简单而优雅的自我改进框架,无需外部数据或教师监督。通过将单个UMMs划分为三个协作角色:提议者、求解者和评判者,UniCorn通过自我博弈生成高质量交互,并采用认知模式重构将潜在理解提炼为显式生成信号。为验证多模态一致性的恢复,我们引入了UniCycle,这是一个基于文本到图像再到文本重建循环的循环一致性基准。大量实验表明...
#2AnatomiX:一种用于胸部X光片解读的解剖学感知型接地多模态大型语言模型
AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation
多模态医疗大型语言模型在胸部X光片解读方面已展现出令人瞩目的进展,但在空间推理和解剖学理解方面仍面临挑战。尽管现有的锚定技术提高了整体性能,但它们往往无法建立真正的解剖学对应关系,导致在医疗领域出现错误的解剖学理解。为解决这一差距,我们引入AnatomiX,这是一种专为基于解剖学的胸部X光片解读而明确设计的多任务多模态大型语言模型。受放射学工作流程的启发,AnatomiX采用两阶段方法:首先识别解剖结构并提取其特征,然后利用大型语言模型执行各种下游任务,如短语锚定、报告生成、视觉问答和图像理解。在多个基准上的大量实验表明,AnatomiX实现了卓越的解剖学推理,与现有方法相比,在解剖学锚定、短...
#3多模态数据增强的基础模型在无线网络预测与控制中的应用:综述
Multi-Modal Data-Enhanced Foundation Models for Prediction and Control in Wireless Networks: A Survey
基础模型(FMs)被认为是一项变革性突破,已开始重塑学术界和工业界人工智能(AI)的未来。将基础模型集成到无线网络中,有望开发出通用人工智能代理,能够处理各种网络管理请求以及涉及多模态数据的高度复杂的无线相关任务。受这些想法的启发,本文讨论了基础模型,特别是多模态基础模型在无线网络中的应用。我们重点关注无线网络管理中的两类重要任务:预测任务和控制任务。具体而言,我们首先讨论了无线网络中基于基础模型的多模态上下文信息理解。然后,我们分别解释了基础模型如何应用于预测任务和控制任务。在此基础上,我们从两个角度介绍了无线专用基础模型的开发:用于开发的可用数据集和所使用的方法。最后,我们总结了基础模型增...
#1UniCorn:通过自我生成监督实现自我改进的统一多模态模型
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
尽管统一多模态模型(UMMs)在跨模态理解方面取得了显著成功,但在利用这种内部知识进行高质量生成方面仍存在巨大差距。我们将这种差异形式化为传导性失语症,即模型能够准确解释多模态输入,但难以将这种理解转化为忠实且可控的合成内容。为解决这一问题,我们提出了UniCorn,这是一个简单而优雅的自我改进框架...
#2AnatomiX:一种用于胸部X光片解读的解剖学感知型接地多模态大型语言模型
AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation
多模态医疗大型语言模型在胸部X光片解读方面已展现出令人瞩目的进展,但在空间推理和解剖学理解方面仍面临挑战。尽管现有的锚定技术提高了整体性能,但它们往往无法建立真正的解剖学对应关系,导致在医疗领域出现错误的解剖学理解。为解决这一差距,我们引入AnatomiX,这是一种专为基于解剖学的胸部X光片解读而明...
#3多模态数据增强的基础模型在无线网络预测与控制中的应用:综述
Multi-Modal Data-Enhanced Foundation Models for Prediction and Control in Wireless Networks: A Survey
基础模型(FMs)被认为是一项变革性突破,已开始重塑学术界和工业界人工智能(AI)的未来。将基础模型集成到无线网络中,有望开发出通用人工智能代理,能够处理各种网络管理请求以及涉及多模态数据的高度复杂的无线相关任务。受这些想法的启发,本文讨论了基础模型,特别是多模态基础模型在无线网络中的应用。我们重点...
还有 55 篇论文
#1具身人工智能数据集中有限的语言多样性
Limited Linguistic Diversity in Embodied AI Datasets
语言在视觉-语言-动作(VLA)模型中扮演着关键角色,然而用于训练和评估这些系统的数据集的语言特征记录仍然不足。在本研究中,我们对几个广泛使用的VLA语料库进行了系统性数据集审计,旨在描述这些数据集实际包含何种类型的指令以及它们提供了多少语言多样性。我们从互补维度量化指令语言,包括词汇多样性、重复与重叠、语义相似性和句法复杂性。我们的分析表明,许多数据集依赖高度重复、模板化的指令,结构变化有限,导致指令形式的分布范围狭窄。我们将这些发现定位为当前VLA训练和评估数据中可用语言信号的描述性文档,旨在支持更详细的数据集报告、更有原则的数据集选择,以及旨在扩大语言覆盖范围的有针对性的整理或增强策略。
#2PiDR:自主平台的物理信息惯性航位推算
PiDR: Physics-Informed Inertial Dead Reckoning for Autonomous Platforms
完全自主的基本要求是在缺乏外部数据(如GNSS信号或视觉信息)的情况下维持精确导航的能力。在这些具有挑战性的环境中,平台必须完全依赖惯性传感器,从而实现纯惯性导航。然而,在现实场景中,惯性传感器固有的噪声和其他误差项会导致导航解随时间漂移。尽管传统的深度学习模型已成为惯性导航的一种可能方法,但它们本质上是黑盒模型。此外,它们在有限的有监督传感器数据下难以有效学习,并且往往无法保留物理原理。为了解决这些局限性,我们提出了PiDR,一种用于自主平台纯惯性导航场景的物理知情惯性航位推算框架。PiDR通过物理知情残差组件将惯性导航原理明确集成到网络训练过程中,从而提供透明度。PiDR在即使在有限或稀疏...
#3学习使用视角不变的潜在动作进行稳健行动
Learning to Act Robustly with View-Invariant Latent Actions
基于视觉的机器人策略往往难以应对即使是微小的视角变化,这凸显了对视角不变视觉表示的需求。在现实环境中,视角变化不可避免,可能会显著影响策略性能,这一挑战更为突出。现有方法通常从场景级别的多视图观测中学习不变性,但此类方法依赖视觉外观,未能融入对鲁棒泛化至关重要的物理动力学。我们提出视角不变潜在动作(VILA),其通过对轨迹间的转换模式进行建模,以学习基于物理动力学的视角不变表示。VILA利用基于真实动作序列的动作引导目标,在不同视角间对齐这些潜在动作。仿真和现实世界中的实验表明,基于VILA的策略能有效泛化到未见过的视角,并能很好地迁移到新任务,这确立了VILA作为一种强大的预训练框架,可提高...
#1具身人工智能数据集中有限的语言多样性
Limited Linguistic Diversity in Embodied AI Datasets
语言在视觉-语言-动作(VLA)模型中扮演着关键角色,然而用于训练和评估这些系统的数据集的语言特征记录仍然不足。在本研究中,我们对几个广泛使用的VLA语料库进行了系统性数据集审计,旨在描述这些数据集实际包含何种类型的指令以及它们提供了多少语言多样性。我们从互补维度量化指令语言,包括词汇多样性、重复与...
#2PiDR:自主平台的物理信息惯性航位推算
PiDR: Physics-Informed Inertial Dead Reckoning for Autonomous Platforms
完全自主的基本要求是在缺乏外部数据(如GNSS信号或视觉信息)的情况下维持精确导航的能力。在这些具有挑战性的环境中,平台必须完全依赖惯性传感器,从而实现纯惯性导航。然而,在现实场景中,惯性传感器固有的噪声和其他误差项会导致导航解随时间漂移。尽管传统的深度学习模型已成为惯性导航的一种可能方法,但它们本...
#3学习使用视角不变的潜在动作进行稳健行动
Learning to Act Robustly with View-Invariant Latent Actions
基于视觉的机器人策略往往难以应对即使是微小的视角变化,这凸显了对视角不变视觉表示的需求。在现实环境中,视角变化不可避免,可能会显著影响策略性能,这一挑战更为突出。现有方法通常从场景级别的多视图观测中学习不变性,但此类方法依赖视觉外观,未能融入对鲁棒泛化至关重要的物理动力学。我们提出视角不变潜在动作(...
还有 13 篇论文
#1Chronicals:一个高性能LLM微调框架,比Unsloth提速3.51倍
Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth
大型语言模型微调受内存瓶颈限制:一个70亿参数的模型需要84GB内存——14GB用于权重,14GB用于梯度,56GB用于FP32优化器状态——甚至超过了A100-40GB的容量。我们提出了Chronicals,这是一个开源训练框架,通过四项协同优化实现了比Unsloth快3.51倍的速度提升:(1)融合Triton内核,通过RMSNorm(7倍)、SwiGLU(5倍)和QK-RoPE(2.3倍)融合消除75%的内存流量;(2)剪切交叉熵通过在线softmax计算将logit内存从5GB减少到135MB;(3)LoRA+,具有理论推导的适配器矩阵间16倍差分学习率;(4)最佳适应递减序列打包恢复...
#2从含噪和不完整数据中进行自监督学习
Self-Supervised Learning from Noisy and Incomplete Data
科学和工程领域的许多重要问题涉及从带噪声和/或不完整的观测数据中推断信号,其中观测过程是已知的。历史上,人们通过手工设计的正则化方法(如稀疏性、总变差)来解决这一问题,以获得有意义的估计。近年来,数据驱动方法通常通过直接从真实信号示例和相关观测数据中学习求解器,从而提供更好的解决方案。然而,在许多实际应用中,获取用于训练的真实参考数据成本高昂或根本不可能。自监督学习方法通过仅从测量数据中学习求解器,绕过了对真实参考数据的需求,提供了一种有前景的替代方案。本文全面总结了用于逆问题的各种自监督方法,特别强调了它们的理论基础,并介绍了在成像逆问题中的实际应用。
#3PET-TURTLE:用于不平衡数据聚类的深度无监督支持向量机
PET-TURTLE: Deep Unsupervised Support Vector Machines for Imbalanced Data Clusters
基础视觉、音频和语言模型通过其潜在表征实现下游任务的零样本性能。近年来,使用深度学习方法对数据组结构进行无监督学习已受到广泛关注。TURTLE 是一种最先进的深度聚类算法,它通过交替更新标签和超平面、最大化超平面间隔(类似于支持向量机(SVM)的方式),在无监督的情况下揭示数据标签。然而,TURTLE 假设簇是平衡的;当数据不平衡时,它会产生非理想的超平面,导致更高的聚类误差。我们提出了 PET-TURTLE,它通过幂律先验泛化成本函数以处理不平衡的数据分布。此外,通过在标签过程中引入稀疏 logits,PET-TURTLE 优化了更简单的搜索空间,进而提高了平衡数据集的准确性。在合成数据和真...
#1Chronicals:一个高性能LLM微调框架,比Unsloth提速3.51倍
Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth
大型语言模型微调受内存瓶颈限制:一个70亿参数的模型需要84GB内存——14GB用于权重,14GB用于梯度,56GB用于FP32优化器状态——甚至超过了A100-40GB的容量。我们提出了Chronicals,这是一个开源训练框架,通过四项协同优化实现了比Unsloth快3.51倍的速度提升:(1)...
#2从含噪和不完整数据中进行自监督学习
Self-Supervised Learning from Noisy and Incomplete Data
科学和工程领域的许多重要问题涉及从带噪声和/或不完整的观测数据中推断信号,其中观测过程是已知的。历史上,人们通过手工设计的正则化方法(如稀疏性、总变差)来解决这一问题,以获得有意义的估计。近年来,数据驱动方法通常通过直接从真实信号示例和相关观测数据中学习求解器,从而提供更好的解决方案。然而,在许多实...
#3PET-TURTLE:用于不平衡数据聚类的深度无监督支持向量机
PET-TURTLE: Deep Unsupervised Support Vector Machines for Imbalanced Data Clusters
基础视觉、音频和语言模型通过其潜在表征实现下游任务的零样本性能。近年来,使用深度学习方法对数据组结构进行无监督学习已受到广泛关注。TURTLE 是一种最先进的深度聚类算法,它通过交替更新标签和超平面、最大化超平面间隔(类似于支持向量机(SVM)的方式),在无监督的情况下揭示数据标签。然而,TURTL...
还有 3 篇论文
#1生物约束尺度不变深度网络中的层级时间感受野和零样本时间尺度泛化
Hierarchical temporal receptive windows and zero-shot timescale generalization in biologically constrained scale-invariant deep networks
人类认知在嵌套时间尺度上整合信息。虽然大脑皮层表现出层级化的时间感受野(TRW),但局部回路通常显示出异质的时间常数。为解决这一矛盾,我们基于尺度不变的海马时间细胞,在模拟语言层级结构(例如,“字母”组成“单词”)的语言分类任务上训练了具有生物学约束的深度网络。首先,使用前馈模型(SITHCon),我们发现尽管网络层内具有相同的时间常数谱,但TRW的层级结构仍在各层间自然涌现。然后,我们将这些归纳先验提炼为生物学上合理的循环架构SITH-RNN。训练从通用RNN到该受限子集的一系列架构表明,尺度不变的SITH-RNN学习速度更快,参数数量少了几个数量级,并且能零样本泛化到分布外的时间尺度。这些...
#2从肌肉到文本:借助MyoText通过手指分类和基于Transformer的解码实现表面肌电信号到文本的转换
From Muscle to Text with MyoText: sEMG to Text via Finger Classification and Transformer-Based Decoding
表面肌电图(sEMG)为解码肌肉活动提供了直接的神经接口,并为可穿戴和混合现实系统中的无键盘文本输入奠定了有前景的基础。以往的sEMG到文本研究主要集中于直接从sEMG信号中识别字母,这是将肌肉活动转化为文本的重要第一步。在此基础上,我们提出了MyoText,这是一个分层框架,通过基于生理学的中间阶段将sEMG信号解码为文本。MyoText首先使用CNN-BiLSTM-Attention模型从多通道sEMG中分类手指活动,应用人体工学打字先验来推断字母,并使用微调的T5转换器重建完整句子。这种模块化设计反映了打字的自然层次结构,将肌肉意图与语言输出联系起来,并减少了解码的搜索空间。在emg2q...
#1生物约束尺度不变深度网络中的层级时间感受野和零样本时间尺度泛化
Hierarchical temporal receptive windows and zero-shot timescale generalization in biologically constrained scale-invariant deep networks
人类认知在嵌套时间尺度上整合信息。虽然大脑皮层表现出层级化的时间感受野(TRW),但局部回路通常显示出异质的时间常数。为解决这一矛盾,我们基于尺度不变的海马时间细胞,在模拟语言层级结构(例如,“字母”组成“单词”)的语言分类任务上训练了具有生物学约束的深度网络。首先,使用前馈模型(SITHCon),...
#2从肌肉到文本:借助MyoText通过手指分类和基于Transformer的解码实现表面肌电信号到文本的转换
From Muscle to Text with MyoText: sEMG to Text via Finger Classification and Transformer-Based Decoding
表面肌电图(sEMG)为解码肌肉活动提供了直接的神经接口,并为可穿戴和混合现实系统中的无键盘文本输入奠定了有前景的基础。以往的sEMG到文本研究主要集中于直接从sEMG信号中识别字母,这是将肌肉活动转化为文本的重要第一步。在此基础上,我们提出了MyoText,这是一个分层框架,通过基于生理学的中间阶...