LLM2D

arXiv 论文列表

作者: Yiwei Guo, Zhihan Li, Hankun Wang, Bohan Li, Chongtian Shao, Hanglei Zhang, Chenpeng Du, Xie Chen, Shujie Liu, Kai Yu
arXiv:2502.06490v2 Announce Type: replace-cross 摘要:在大规模语言模型(LLMs)时代,语音生成技术的快速发展已经确立了离散语音令牌作为语音表示的基础范式。这些令牌以其离散、紧凑和简明的特点,不仅有利于高效传输和存储,还与语言模型框架本就具备的兼容性,使得语音能够无缝集成到以文本为主导的LLM架构中。当前的研究将离散语音令牌分为两类主要类别:声学令牌和语义令牌,每种类别都发展成为具有独特设计理念和方法论方法的研究领域。本文系统地综合了现有的分类体系和离散语音分词的最新创新,对其各自范式的优点和局限性进行了批判性评估,并进行了跨令牌类型系统的实验比较。此外,我们识别了该领域的持续性挑战,并提出潜在的研究方向,旨在提供可操作的见解,以激发离散语音令牌开发和应用的未来进步。
发布时间: 2/18/2025
查看原文
作者: Junyu Lu, Kai Ma, Kaichun Wang, Kelaiti Xiao, Roy Ka-Wei Lee, Bo Xu, Liang Yang, Hongfei Lin
arXiv:2502.06207v2 宣布类型: replace-cross 摘要:大型语言模型(LLMs)已成为检测冒犯性语言的重要工具,但它们处理注解分歧的能力尚未得到充分探索。由于主观解释导致的分歧样本具有模棱两可的性质,这给处理带来了独特的挑战。理解LLMs如何处理这些情况,特别是它们的信心水平,可以为我们提供关于它们与人类注释者一致性的见解。本研究系统地评估了多种LLMs在不同注解一致水平下检测冒犯性语言的表现。我们分析了二元分类准确性,检查了模型信心与人类分歧之间的关系,并探讨了分歧样本如何影响模型在少样本学习和指令微调过程中的决策。我们的研究结果表明,LLMs在低一致性的样本上面临挑战,往往在这些模棱两可的案例中表现出过度自信。然而,利用分歧样本进行训练可以提高检测准确性和模型与人类判断的一致性。这些见解为增强基于LLM的冒犯性语言检测在实际监管任务中的表现奠定了基础。
发布时间: 2/18/2025
查看原文
arXiv:2502.05933v2 宣布类型: 替换交叉 摘要: 智能词语替换旨在通过改善词语选择来提升句子质量;然而当前的标准基准依赖于人工标注的数据。由于词语选择本质上是主观的,由一小群标注者生成的真实词语替换通常不完整,并且很可能是不具普适性的。为了解决这一问题,我们改用基于模型的评分(BARTScore)来量化句子质量,从而避免了人工标注的需要。具体而言,我们使用这个评分来定义每个词语替换的分布,从而使人们能够测试一个替换是否在统计上优于其他替换。此外,我们提出了一种损失函数,该函数直接优化了模型预测与句子评分之间的对齐,同时提高了替换的整体质量评分。重要的是,模型学习不再需要人工标签,从而避免了标注的成本,并保持了使用替换修改后的文本质量。实验结果表明,所提出的方法优于屏蔽语言模型(BERT、BART)和大型语言模型(GPT-4、LLaMA)。源代码可在 https://github.com/Hyfred/Substitute-Words-with-Ranking 获取。
发布时间: 2/18/2025
查看原文
作者: Ada Defne Tur, Gaurav Kamath, Siva Reddy
arXiv:2502.05670v3 宣布类型:替换-交叉 摘要:尽管英语句子通常在词序方面比较僵硬,但成分的顺序往往显示出更大的变化性。一种重要的理论认为,成分的顺序与其权重直接相关:一个衡量成分长度或复杂性的量度。这样的理论在自然语言处理(NLP)的背景下非常有趣,因为虽然最近NLP的进展在大型语言模型(LLMs)的表现上取得了显著的提升,但关于这些模型如何处理语言,以及与人类语言处理相比的情况,仍然有很多不清楚的地方。特别是在成分移动方面,究竟LLMs是否表现出与人类相同的模式,以及它们在人类语言处理中的转移发生时间与方式上能否提供新的见解,这些问题仍然存在。我们比较了一种具有多种属性的LLMs,以评估其在四种类型的成分移动(重NP转移、助词移动、施与选择和多重PP)方面的广泛性能。尽管在助词移动方面表现出意料之外的结果,但LLMs在成分顺序方面的表现普遍符合人类的偏好。
发布时间: 2/18/2025
查看原文
作者: Yi Li, Yuquan Deng, Jesse Zhang, Joel Jang, Marius Memmel, Raymond Yu, Caelan Reed Garrett, Fabio Ramos, Dieter Fox, Anqi Li, Abhishek Gupta, Ankit Goyal
arXiv:2502.05485v3 宣布类型: replace-cross 摘要:大规模基础模型在视觉和语言方面已经展示了强大的开放世界泛化能力,面对复杂的视觉和语言问题,但在机器人领域尚未实现类似的泛化水平。一个根本性的挑战是没有足够的机器人数据,这些数据通常通过昂贵的在机器人操作中获得。一种有希望的解决方案是利用较便宜的、域外数据,如无动作的视频、手工绘制的草图或模拟数据。在本文中,我们认为分层的视觉-语言-动作(VLA)模型比直接微调视觉-语言模型(VLMs)来预测动作的标准单一VLA模型更能有效利用域外数据。特别是,我们研究了一类分层VLA模型,其中高层VLM被微调以生成一个粗略的2D路径,该路径在给定RGB图像和任务描述的情况下指示所需机器人末端执行器的轨迹。然后,中间层级的2D路径预测作为指导提供给3D感知的控制策略,该策略能够进行精确的操作。这样做减轻了高层VLM对细粒度动作预测的负担,同时减少了低层策略在复杂的任务级推理方面的负担。我们展示,在分层设计下,高层VLM可以在广泛的离域微调数据和实际机器人测试场景之间的显著领域差距上传输,包括在实体、动力学、视觉外观和任务语义等方面的差异。在实际机器人实验中,我们观察到在七个不同泛化轴上相对于OpenVLA的成功率平均提高了20%,相当于50%的相对增益。视觉结果可以在以下链接提供:https://hamster-robot.github.io
发布时间: 2/18/2025
查看原文
作者: Kaicheng Zhang, Piero Deidda, Desmond Higham, Francesco Tudisco
arXiv:2502.04591v2 宣告类型: replace-cross 摘要:图神经网络(GNNs)中的过度平滑是一个基本挑战:随着层数的增加,节点嵌入变得越来越相似,模型性能急剧下降。传统上,过度平滑通过度量邻节点特征相似性的指标来量化,比如狄利克雷能量。虽然这些指标与过度平滑有关,但我们认为它们存在关键局限性,在现实场景中无法可靠地捕捉过度平滑。例如,它们仅在非常深的网络和对网络权重范数及特征表示有严格限制的情况下才提供有意义的见解。作为替代方案,我们建议通过检查特征表示的有效秩或数值秩来度量过度平滑。我们为这种做法提供了理论支持,证明在假设训练后的权重为非负的情况下,对于一系列非线性激活函数,特征表示的有效秩收敛于1。据我们所知,这是第一个证明过度平滑发生的成果,且不基于权重矩阵有界性的假设。除了理论发现,我们还在多种图架构上进行了广泛的数值评估。结果表明,基于秩的指标一致地捕捉到了过度平滑,而基于能量的指标经常失效。更重要的是,我们发现特征表示秩的显著下降与性能下降高度一致,即使在能量指标不变的情况下也是如此。
发布时间: 2/18/2025
查看原文
作者: Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin, X. Angelo Huang, Samuele Marro, Anthony Cohn, Nigel Shadbolt, Michael Wooldridge
arXiv:2502.03568v2 宣告类型: replace-cross 摘要: 许多逻辑推理、规划和问题解决任务固有地具有算法性质:准确模拟每一步是正确解决它们的充分条件。我们收集了自然场景和合成场景的逻辑推理任务,以评估大型语言模型(LLM)的能力。虽然自然场景任务通常需要仔细的手工制造,但我们展示了在许多情况下,合成数据是一个很好的代理,收集起来更简单且规模更大。我们利用编程中的常见结构作为自然场景推理任务构建块的对应物,如直线程序、包含关键路径的代码和近似冗余指令。我们进一步通过排序问题和嵌套循环中的排序算法来评估LLM的能力。我们的合成数据集还揭示了,尽管最强大的LLM表现出相对强大的执行能力,这一过程是脆弱的:它受到记忆的影响,并似乎高度依赖于模式识别。我们的贡献建立在通过合成测试来评估LLM的推理能力的基础上,作为手工制造的人工标注问题的可扩展补充。
发布时间: 2/18/2025
查看原文
作者: Fred Zhangzhi Peng, Zachary Bezemek, Sawan Patel, Jarrid Rector-Brooks, Sherwood Yao, Alexander Tong, Pranam Chatterjee
arXiv:2502.03540v3 宣布类型: replace-cross 摘要:在本文中,我们探讨了掩码标记解遮蔽顺序对生成质量在掩码扩散模型(MDMs)中的影响。我们推导出一个扩展的证据下界(ELBO),引入了一个规划器来选择在每一步中解遮蔽哪些标记。我们的分析揭示了替代解遮蔽策略可以提升生成性能。在此基础上,我们提出了一种路径规划(P2)采样框架,该框架使用预训练的BERT模型或消噪器本身来引导解遮蔽决策。P2涵盖了所有已知的MDM采样策略,并在包括语言生成(上下文学习、代码生成、故事填充、数学推理、反向诅咒修正)和生物序列生成(蛋白质和RNA序列)在内的多种领域中显著提升了性能。
发布时间: 2/18/2025
查看原文
作者: Sherif Eissa, Sander Stuijk, Floran De Putter, Andrea Nardi-Dei, Federico Corradi, Henk Corporaal
arXiv:2502.03287v2 宣告类型: replace-cross 摘要: 突触神经网络(SNNs)是具有生物启发性的第三代神经网络。最近的研究已经训练了与人工神经网络(ANNs)相媲美的深度SNN模型。尽管SNNs的事件驱动和稀疏特性显示出比ANNs更具能效计算的潜力,但SNN神经元具有随时间演变的内部状态,这可能会显著增加数据移动和存储需求,从而可能使其相对于ANNs的优势减弱。本文探讨了拥有神经元状态的能量影响及其如何受到对现实硬件架构(特别是高级内存层次结构)所选择映射的影响。因此,我们开发了STEMS,这是一种用于SNN的映射设计空间探索工具。STEMS 模型了SNN的状态化行为,并探索了层内和层间的映射优化,以最小化数据移动,同时考虑了空间和时间两个维度的SNN。使用STEMS,我们展示了在两个基于事件的视觉SNN基准上,减少12倍的 off-chip 数据移动和减少5倍的能量(基于层内优化)。最后,某些SNN层可能不需要神经元状态。通过对我们的一个基准进行神经元状态优化,我们展示了神经元状态减少20倍,并且在不损失精度的情况下性能提高了1.4倍。
发布时间: 2/18/2025
查看原文
作者: Christine Konicki, Mithun Chakraborty, Michael P. Wellman
arXiv:2502.02901v2 Announce Type: replace-cross 摘要:政策空间响应先知(PSRO)将经验性的博弈论分析与深度强化学习(DRL)结合,以解决传统分析方法无法解决的复杂博弈。树利用PSRO(TE-PSRO)是这种方法的一种变体,它通过查询模拟器(该模拟器代表了游戏的详细描述)获得的数据,迭代地构建在扩展形式下的粗化经验博弈模型。为了使TE-PSRO更适合复杂的完全信息缺失博弈,我们主要在两个方法论方面做出了改进。首先,我们引入了一种可扩展的表示形式来表示经验博弈树,其中边对应于通过DRL隐式学习到的策略。这些策略涵盖了游戏模型中抽象出的底层游戏的条件,支持树在世代间持续增长。其次,我们通过应用细化的纳什均衡在经验模型中利用扩展形式,以指导策略探索。为此,我们提供了一个基于广义向后归纳的模块化和可扩展算法,用于计算不完全信息博弈中的子博弈完美均衡(SPE)。我们通过一系列游戏的实验评估了这种方法,包括一个带有外部提议的交替出价博弈;我们的结果表明,在基于SPE而不是纳什均衡生成新策略时,TE-PSRO更快地收敛至均衡,并且对于增长中的经验模型,所需的合理时间和内存是可以承受的。
发布时间: 2/18/2025
查看原文