arXiv 论文列表

作者: Chenyou Fan, Chenjia Bai, Zhao Shan, Haoran He, Yang Zhang, Zhen Wang

arXiv:2409.19949v2 Announce Type: replace-cross 摘要：扩散模型在建模多任务轨迹方面展示了其能力。然而，现有的多任务规划器或策略通常依赖于通过多任务模仿任务特定的演示，或者需要任务特定的奖励标签来通过强化学习（RL）促进策略优化。这些方法由于需要大量的人力努力收集专家数据或设计奖励函数而成本高昂。为了解决这些挑战，我们旨在开发一个通用的扩散规划器，能够利用包含任务无关的次优轨迹的大规模劣质数据，并具备快速适应特定任务的能力。在本文中，我们提出了SODP，这是一种两阶段框架，利用次优数据来学习一个扩散规划器，该规划器适用于各种下游任务。具体而言，在预训练阶段，我们训练了一个基础的扩散规划器，通过建模多任务轨迹的多功能分布来提取通用的规划能力，这些轨迹可以是次优的，且具有广泛的数据覆盖。然后对于下游任务，我们采用基于强化学习的微调并结合任务特定的奖励来快速细化扩散规划器，目标是生成具有更高任务特定回报的动作序列。来自Meta-World和Adroit等多任务领域的实验结果显示，SODP仅使用少量数据进行奖励引导的微调便优于现有最先进的方法。

发布时间: 2/4/2025

查看原文

基于敏感性测试对 Offensive 进程的评估大型语言模型

作者: Robert Morabito, Sangmitra Madhusudan, Tyler McDonald, Ali Emami

arXiv:2409.13843v2 提交类型: replace-cross 摘要: 减轻大型语言模型（LLMs）中的显性偏差和隐性偏差已成为自然语言处理领域的关键重点。然而，许多现有方法在评估场景时是孤立进行的，而不考虑更广泛的上下文或每个情境中存在的各种潜在偏差。为了解决这一问题，我们引入了《敏感性测试在冒犯性进展上的数据集》（Sensitivity Testing on Offensive Progressions，简称STOP），其中包括450个冒犯性进展，共包含2,700个不同程度的独特句子，这些句子从较不明确冒犯到更明确冒犯逐步升级。STOP涵盖了9个族群和46个次族群的广泛范围，确保了包容性和全面覆盖。我们评估了几个领先的闭源和开源模型，包括GPT-4、Mixtral和Llama 3。我们的发现表明，即使是表现最好的模型在检测偏差方面也存在不一致性，成功率为19.3%至69.8%之间。我们还展示了如何通过将模型与STOP上的人类判断对齐，可以在敏感任务，如BBQ、StereoSet和CrowS-Pairs上将模型答案率提高高达191%，同时保持或甚至改进性能。STOP提供了一个评估LLMs中复杂偏差性质的新框架，这将有助于更有效的偏见缓解策略，并促进更公平的语言模型的创建。

发布时间: 2/4/2025

查看原文

基于双曲几何的类脑AI

作者: Alexander Joseph, Nathan Francis, Meijke Balay

arXiv:2409.12990v3 通告类型: replace-cross 摘要：人工神经网络（ANNs）受到了人脑结构和功能的启发，并且在人工智能（AI）领域引发了革命。受到大脑潜空间几何研究的启发，本文我们认为在ANNs和机器学习中增加对双曲几何的研究和应用将导致更高的准确性、更好的特征空间表示以及在各种任务中更高效的模型。我们探讨了人脑的结构和功能，强调了人脑的无标度分层组织与其对应的双曲几何之间的对应关系，并反思了双曲几何在促进人类智能方面所起的关键作用。实证证据表明，双曲神经网络在自然语言处理、计算机视觉和复杂网络分析等任务中表现优于欧几里得模型，需要更少的参数且泛化性能更好。尽管双曲几何的应用尚处于起步阶段，但其通过借鉴人脑几何表示有望改进机器学习模型。

发布时间: 2/4/2025

查看原文

层归一化的一种几何解释及与RMSNorm的比较分析

作者: Akshat Gupta, Atahan Ozdemir, Gopala Anumanchipalli

arXiv:2409.12951v2 Announce Type: replace-cross 摘要：本文提出了LayerNorm的一种新的几何解释，并探讨了LayerNorm如何影响表示空间中隐藏向量的范数和方向。通过这些几何见解，我们为比较LayerNorm与RMSNorm奠定了基础。我们展示了LayerNorm的定义与均匀向量（定义为$\boldsymbol{1} = [1, 1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$）之间内在的联系。然后我们表明，LayerNorm中的标准化步骤可以分为三个简单的步骤：（i）移除向量沿均匀向量分量，（ii）对剩余的向量进行归一化，（iii）将结果向量缩放为$\sqrt{d}$倍，其中$d$是表示空间的维度。我们还提供了关于LayerNorm在推理时运作方式的额外见解。最后，我们将基于LayerNorm的LLM的隐藏表示与使用RMSNorm训练的模型进行了比较，并展示了所有LLM在推理时自然地相对于均匀向量正交，也就是说，在推理过程中它们的成分通常不会沿均匀向量方向。这为去除LayerNorm中沿均匀向量分量的步骤提供了首次机械证据。这些结果提倡使用RMSNorm优于LayerNorm，同时RMSNorm在计算上也更为高效。

发布时间: 2/4/2025

查看原文

E2Map：体验与情绪地图，用于带有语言模型的自我反思机器人导航

作者: Chan Kim, Keonwoo Kim, Mintaek Oh, Hanbi Baek, Jiyang Lee, Donghwi Jung, Soojin Woo, Younkyung Woo, John Tucker, Roya Firoozi, Seung-Woo Seo, Mac Schwager, Seong-Woo Kim

arXiv:2409.10027v4 通知类型: 替换交叉摘要：大规模语言模型（LLMs）在指导实体代理执行语言指令方面显示出巨大的潜力，涵盖了从机器人操作到导航等一系列任务。然而，现有的方法主要针对静态环境设计，并未利用代理自身的经验来改善其初始计划。鉴于现实世界的环境本质上是 stochastic 的，仅依赖于 LLM 通用知识的初始计划在现实环境中可能无法实现其目标，而在静态场景中则不会出现这种问题。为解决这一局限性，本研究引入了经验与情感地图（E2Map），结合了不仅包括 LLM 知识，还整合了代理在现实世界中的经验，借鉴了人类情感反应的灵感。所提出的方法通过根据代理的经验更新 E2Map 来实现一次性的行为调整。在 stochastic 导航环境中的评估，包括仿真和真实世界场景，表明所提方法相比现有的基于 LLM 的方法显著提高了在 stochastic 环境中的性能。相关代码和补充材料可在 https://e2map.github.io/ 获取。

发布时间: 2/4/2025

查看原文

AceParse：一个用于学术文献解析的包含多样化结构化文本的综合数据集

作者: Huawei Ji, Cheng Deng, Bo Xue, Zhouyang Jin, Jiaxin Ding, Xiaoying Gan, Luoyi Fu, Xinbing Wang, Chenghu Zhou

arXiv:2409.10016v2 通告类型: replace-cross 摘要：随着数据为中心的AI的发展，重点已经从基于模型的方法转向提高数据质量。学术文献作为其中一种关键类型，绝大多数以PDF格式存储，因此需要解析成文本才能进行进一步处理。然而，由于缺乏涵盖各种文本结构的数据集，因此对学术文献中的多样化的结构化文本进行解析仍然具有挑战性。在本文中，我们介绍了AceParse，这是第一个全面的数据集，旨在支持广泛范围的结构化文本的解析，包括公式、表格、列表、算法以及包含嵌入数学表达式的句子。基于AceParse，我们微调了一个多模态模型，命名为AceParser，该模型能够准确解析学术文献中的各种结构化文本。与之前的状态-of-the-art相比，在F1分数上，AceParser提升了4.1%，在Jaccard相似度上提升了5%，这表明多模态模型在学术文献解析领域的潜力。我们的数据集可在https://github.com/JHW5981/AceParse获得。

发布时间: 2/4/2025

查看原文

AACessTalk：在情境引导和卡片推荐下的 minimally verbal 自闭症儿童与父母的沟通促进

作者: Dasom Choi, SoHyun Park, Kyungah Lee, Hwajung Hong, Young-Ho Kim

arXiv:2409.09641v3 公告类型：替换交叉摘要：由于最少量言语自闭症（MVA）儿童通过少量词语和非言语线索与父母交流，父母往往难以鼓励儿童表达微妙的情感和需求，并理解其细微的信号。我们提出了一个基于平板电脑、由人工智能介导的交流系统——AACessTalk，它有助于MVA儿童与其父母之间有意义的交流。AACessTalk为父母提供实时指导，鼓励其与儿童进行对话，并反过来向儿童推荐上下文词汇卡片。通过为期两周的部署研究，我们调查了AACessTalk如何促进日常对话实践和相互参与。我们的研究结果表明，所有参与的双人小组都表现出高参与度，导致对话频率和轮流次数增加。此外，AACessTalk还鼓励父母探索自己的互动策略，并赋予儿童在交流中更多的自主权。我们讨论了为父母与MVA儿童互动设计促进平衡交流动力的技术的意义。

发布时间: 2/4/2025

查看原文

Wave-U-Mamba：一种高效高质量的端到端语音超分辨率框架

作者: Yongjoon Lee, Chanwoo Kim

arXiv:2409.09337v3 更新类型: 替换交叉摘要：语音超分辨率（SSR）是通过恢复缺失的高频分量来增强低分辨率语音信号的任务。传统方法通常重建对数梅尔特征，然后通过声音合成器在波形域生成高分辨率语音。然而，由于梅尔特征缺乏相位信息，在重建过程中可能会导致性能下降。受最近Selective State Spaces Models（SSMs）进展的启发，我们提出了一种称为Wave-U-Mamba的方法，直接在时域进行SSR。在我们的比较研究中，包括WSRGlow、NU-Wave 2和AudioSR等模型，Wave-U-Mamba表现出更优的性能，实现了从8 kHz到24 kHz各种低分辨率采样率下最低的对数谱距离（LSD）。此外，使用均意见分数（MOS）进行的人主观评价表明，我们的方法生成的SSR具有自然且类似人类质量的语音。此外，Wave-U-Mamba还在单一A100 GPU上比基线模型快九倍的生成高分辨率语音，参数大小小于基线模型的2%。

发布时间: 2/4/2025

查看原文

逆约束强化学习的研究综述：定义、进展与挑战

作者: Guiliang Liu, Sheng Xu, Shicheng Liu, Ashish Gaurav, Sriram Ganapathi Subramanian, Pascal Poupart

arXiv:2409.07569v3 宣告类型: 替换-交叉摘要：逆约束强化学习（ICRL）是指基于专家代理的演示数据推断其遵守的隐式约束的任务。作为一种新兴的研究主题，ICRL 近年来受到了相当大的关注。本文对 ICRL 最新的进展进行了分类综述，旨在为机器学习研究者、实践者以及初学者提供一个全面的参考，帮助他们理解 ICRL 的定义、进展和重要挑战。首先，本文正式定义了问题，并概述了一个通用的算法框架，该框架使得在各种场景中推断约束成为可能。这些场景包括确定性或随机环境、演示样本有限的环境以及多个代理的环境。对于每个特定的场景，本文阐述了关键挑战，并介绍了一系列基本方法来应对这些挑战。本综述涵盖了用于评估 ICRL 代理的离散、虚拟和现实环境。本文还探讨了 ICRL 最重要的应用，如自动驾驶、机器人控制和体育分析。为了促进持续研究，本文以讨论关键未解决问题结束，这些问题能够有效地架起理论理解与实际工业应用之间的桥梁。本文引用的论文可在 https://github.com/Jasonxu1225/Awesome-Constraint-Inference-in-RL 找到。

发布时间: 2/4/2025

查看原文

使用正弦模型、瞬态模型和噪声模型的钢琴音符神经表征

作者: Riccardo Simionato, Stefano Fasciani

arXiv:2409.06513v3 类型: replace-cross 摘要：本文介绍了一种新的钢琴声音模拟方法。我们提出利用正弦波、瞬态和噪声分解来设计一个可微光谱建模合成器，以复制钢琴音符。三个子模块从钢琴录音中学习这些组件，并生成相应的谐波、瞬态和噪声信号。将模拟过程分解为三个独立可训练的模型，降低了建模任务的复杂性。通过一个由物理公式引导的可微分正弦模型生成准谐波内容，其参数通过音频录音自动估计。噪声子模块使用一个可学习的时间不变滤波器，瞬态通过一个深层卷积网络生成。通过一个基于卷积的网络，从单一音符再现三和弦之间的耦合。结果表明，模型匹配目标的谐波分布，但在预测光谱较高部分的能量时存在更多挑战。瞬态和噪声组件的光谱能分布总体上是准确的。尽管该模型在计算和内存效率方面更具优势，但感知测试揭示了在准确建模音符的起始阶段方面的局限性。尽管如此，该模型在再现单一音符和三和弦方面通常实现了感知上的准确性。

发布时间: 2/4/2025

查看原文