arXiv 论文列表

作者: Nan Xu, Xuezhe Ma

arXiv:2410.14166v2 宣告类型: replace-cross 摘要: 有趣的是，LLMs 在一些人类觉得琐碎的任务上仍然难以应对，例如，在单词 "strawberry" 中统计字母 r 的数量。关于LLMs 在简单基于单词的计数问题上的缺陷，有一些流行的猜想（例如，分词、架构和训练数据），都持有这样的信念：这种失败源于模型的预训练，所以很可能是部署时不可避免的。在本文中，我们精心设计了多个评估设置来调查流行猜想的有效性。同时，我们测量了专门化LLMs 在高级数学和编码推理能力向简单计数任务的迁移程度。尽管专门化LLMs 在计数问题上也存在困难，但我们发现关于LLMs 本身固有的缺陷的猜想是无效的，并进一步寻找从LLMs 中引发有助于计数任务的知识和能力的机会。与通常用来提高新任务或挑战性任务性能的微调和上下文学习策略相比，我们展示出参与推理是最稳健和高效的方法来帮助LLMs 更准确地感知任务。我们希望我们的猜想验证设计能够为未来LLMs 关键失败模式的研究提供见解。基于将高级能力应用于更为简单的任务时遇到的挑战，我们呼吁更多关注模型能力的获取与评估，并强调在预训练时培养“先推理后响应”的意识的重要性。

发布时间: 2/10/2025

查看原文

面向表格问答的准确且后悔意识的数值问题求解器

作者: Yuxiang Wang, Jianzhong Qi, Junhao Gan

arXiv:2410.12846v3 宣告类型: replace-cross 摘要: 自由格式表格上的问答（又称 TableQA）是一项具有挑战性的工作，因为表格具有灵活的结构和复杂的模式。近期的研究利用大型语言模型（LLMs）来执行这项任务，利用它们理解问题和表格数据的能力，这些数据通常以自然语言给出，并且包含许多文本字段。虽然这种方法显示出了令人鼓舞的结果，但它忽视了表格数据中常见的数值所带来的挑战，而 LLMs 在处理这些数值时存在问题。我们旨在解决这一问题，并提出了一个名为 TabLaP 的模型，该模型利用 LLMs 作为规划者而非答案生成器。这种方法利用了 LLMs 的多步推理能力，将实际的数值计算留给 Python 解释器进行准确的计算。鉴于 LLMs 的不准确特性，我们进一步尝试量化 TabLaP 生成的答案的可信度，以便用户可以以后悔意识的方式使用 TabLaP。在两个基准数据集上的实验结果表明，TabLaP 在准确度上显著优于最先进的模型，在两个数据集上分别提高了 5.7% 和 5.8% 的答案准确度。

发布时间: 2/10/2025

查看原文

用大型语言模型理解知识图schläge user 好的，还有一个标题：Bias Mitigation in Large Language Models for Recommender Systems

作者: Ziqiang Cui, Yunpeng Weng, Xing Tang, Fuyuan Lyu, Dugang Liu, Xiuqiang He, Chen Ma

arXiv:2410.12229v2 识别类型: 替换-交叉摘要：近年来，知识图谱（KGs）的引入显著推进了推荐系统的发展，通过促进项目之间潜在关联的发现。然而，现有的方法仍然面临一些局限性。首先，大多数KGs存在缺失事实或范围有限的问题。其次，现有方法将KG中的文本信息转换为ID，导致不同项目之间的自然语义连接损失。第三，现有方法难以捕捉全局KG中的高阶连接。为了解决这些局限性，我们提出了一种名为CoLaKG的新型方法，该方法利用大型语言模型（LLMs）改进基于KG的推荐。LLMs的强大世界知识和卓越的推理能力使我们的方法能够补充KG中缺失的事实。此外，其强大的文本理解能力使得更好地利用语义信息成为可能。具体而言，CoLaKG从KG的局部和全局水平提取有用的信息。通过使用以项目为中心的子图提取和提示工程，它准确地捕捉局部KG。随后，通过基于检索的邻域增强，它通过从整个KG中捕获相关项目来补充当前项目，从而有效利用全局信息。LLMs提取的局部和全局信息分别通过表示融合模块和检索增强的表示学习模块整合到推荐模型中，从而提高推荐性能。在四个真实世界数据集上的广泛实验表明了我们方法的优越性。

发布时间: 2/10/2025

查看原文

有序交互式分割

作者: Bin Wang, Anwesa Choudhuri, Meng Zheng, Zhongpai Gao, Benjamin Planche, Andong Deng, Qin Liu, Terrence Chen, Ulas Bagci, Ziyan Wu

arXiv:2410.12214v3 交互分割类型: 替换-交叉摘要：交互分割的目标是在最少的用户交互下准确分割目标对象。然而，当前的方法往往难以准确地将目标对象与背景区分开来，这是因为对场景中物体间相对深度的理解有限。为了解决这个问题，我们提出了一种名为OIS（Order-Aware Interactive Segmentation）的方法，在这种方法中，我们明确地将物体间的相对深度编码到顺序图中。我们引入了一种新颖的顺序感知注意力机制，其中顺序图可以无缝指导用户的交互（形式为点击）关注图像特征。我们还提出了一种对象感知的注意力模块，以整合强对象级别的理解，更好地区分具有相似顺序的对象。我们的方法允许稠密和稀疏的用户点击集成，与先前的工作相比，在准确性和效率上均有所提高。实验结果表明，OIS在HQSeg44K数据集上单次点击后的mIoU提升了7.61，在DAVIS数据集上相较于之前的最佳方法SegNext提升了1.32，同时还将推理速度提高了两倍。项目页面为 https://ukaukaaaa.github.io/projects/OIS/index.html

发布时间: 2/10/2025

查看原文

SOLD：槽对象中心的潜在动力模型，用于从像素中学习关系化操作学习

作者: Malte Mosbach, Jan Niklas Ewertz, Angel Villar-Corrales, Sven Behnke

arXiv:2410.08822v2 任务类型: replace-cross 摘要：学习一个潜在动力学模型为代理对其环境的理解提供了一种任务无关的表示。利用这种知识进行模型导向的强化学习（RL）有可能通过从假想的滚动过程中学习来提高基于样本的学习效率，从而超越无模型的方法。此外，由于潜在空间作为行为模型的输入，世界模型中学习到的具有信息性的表示促进了对期望技能的高效学习。现有方法大多依赖于环境状态的整体表示。相比之下，人类会根据物体及其相互作用推理，并预测行动将如何影响周围环境的特定部分。受到这一启发，我们提出了一种新的模型导向的RL算法——基于插槽注意力的对象中心化潜在动力学（SOLD），该算法能够从像素输入中以无监督的方式学习对象中心的动力学模型。我们证明，结构化潜在空间不仅提高了模型的可解释性，还为行为模型提供了一个有价值的输入空间来进行推理。我们的结果显示，无论是需要关系推理和操作能力的基准机器人环境中，SOLD 都优于目前最先进的基于模型的RL算法（如DreamerV3和TD-MPC2）。更多信息和视频请访问 https://slot-latent-dynamics.github.io/。

发布时间: 2/10/2025

查看原文

简化为王：重新思考大型语言模型遗忘中关于负偏好优化的思想

作者: Chongyu Fan, Jiancheng Liu, Licong Lin, Jinghan Jia, Ruiqi Zhang, Song Mei, Sijia Liu

arXiv:2410.07163v3 通知类型: replace-cross 摘要：本文研究了大型语言模型（LLM）的撤回问题，旨在移除不需要的数据影响（例如，受版权保护或有害内容）的同时保持模型的实用性。尽管对撤回的需求日益增加，但缺乏一个基于技术的优化框架。尽管梯度上升（GA）类型的算法被广泛使用，但它们存在不足，因为这些算法会倒转学习过程而不控制优化发散（即，偏离预训练状态的偏差），这导致过度忘记的风险和潜在的模型崩溃。负偏好优化（NPO）已被提出以解决这一问题，并被认为是当前最先进的LLM撤回方法之一。在本文中，我们重新审视了NPO，并确立了另一个关键问题：参考模型偏见。这种偏见源自于使用参考模型（即，在撤回之前的模型）来评估撤回的成功，这会损害NPO的效果。具体来说，这会导致（a）在遗忘数据具有不同难度级别时优化力量的不均衡分配，以及（b）在撤回优化的早期阶段无效的梯度权重平滑。为了克服这些挑战，我们提出了一种简单而有效的撤回优化框架，称为SimNPO，表明通过简单的偏好优化去除对参考模型的依赖性（从简化视角来看）可以提高撤回效果。我们通过对马尔可夫链混合模型的分析提供了SimNPO优势的更深入见解。大量实验进一步验证了SimNPO在TOFU和MUSE等基准上的有效性以及其在重新学习攻击下的鲁棒性。代码可在https://github.com/OPTML-Group/Unlearn-Simple获取。

发布时间: 2/10/2025

查看原文

异步随机梯度下降与解耦反传播及层-wise更新

作者: Cabrel Teguemne Fokam, Khaleelulla Khan Nazeer, Lukas K\"onig, David Kappel, Anand Subramoney

arXiv:2410.05985v3 宣告类型: 替换-交叉摘要：深度学习模型的不断增加的规模使跨多个设备进行分布式培训变得必不可少。然而，当前的方法，如分布式数据并行培训，在跨设备培训时由于大量通信和同步开销导致作业性能不理想，从而增加了训练时间。异步随机梯度下降（ASGD）方法可以提高训练速度，但对通信延迟和吞吐量差异的延迟敏感。此外，ASGD工人内部的反向传播算法由于其正向和反向传递之间的交织而成为瓶颈。当前的方法也没有利用正向传递和反向传递所需计算量的巨大差异。因此，我们提出了一个名为部分解耦ASGD（PD-ASGD）的ASGD扩展，以解决这些问题。PD-ASGD使用单独的线程进行正向和反向传递，解耦更新，允许正向线程与反向线程的比例高于通常的1:1比例，从而提高吞吐量。PD-ASGD还在多个线程中并行执行层（部分）模型更新。这减少了参数陈旧性，从而提高了对延迟的鲁棒性。在存在延迟的情况下，我们的方法的运行速度可达到接近当前最先进的结果，并比同步数据并行快$5.95\times$，比可比的ASGD算法快$2.14\times$，因为模型乘法器的利用率更高。我们描述了该方法引入的梯度偏差，建立了上限，并证明了收敛性。

发布时间: 2/10/2025

查看原文

WAVE: 加权自回归可变门控时间序列预测模型

作者: Jiecheng Lu, Xu Han, Yan Sun, Shihao Yang

arXiv:2410.03159v2 宣布类型: 交叉替换摘要：我们提出了一种结合自回归 (AR) 和移动平均 (MA) 成分的加权自回归可变门控注意力 (WAVE) 机制。它可以适应各种注意力机制，增强和解耦它们在时间序列数据中捕获长范围和局部时间模式的能力。在本文中，我们首先证明，在适当的时间序列分词和训练方法应用的情况下，此前未被充分注意的仅解码器自回归 Transformer 模型能够在时间序列预测 (TSF) 任务上达到与最佳基线相当的结果。此外，受到统计学中的 ARMA 模型和近期线性注意力进展的启发，我们将完整的 ARMA 结构引入现有的自回归注意力机制中。通过使用间接生成 MA 权重的方法，我们在保持底层高效注意力模型的时间复杂度和参数量的同时集成了 MA 项。我们进一步探索了间接参数生成如何产生符合局部时间影响建模需求的隐式 MA 权重。实验结果表明，包含了 ARMA 结构的 WAVE 注意力机制在 TSF 任务上的各种自回归注意力机制上都始终提升了性能，达到了现有最佳水平。

发布时间: 2/10/2025

查看原文

语言模型在其生命周期中组成性的几何签名

作者: Jin Hwa Lee, Thomas Jiralerspong, Lei Yu, Yoshua Bengio, Emily Cheng

arXiv:2410.01444v3 通知类型: replace-cross 摘要：凭借语言成分性，少量的句法规则和有限的词汇可以生成无限数量的句子。也就是说，虽然语言似乎维度很高，但它可以用相对较少的自由度来解释。一个待解决的问题是当代理论语言模型（LMs）是否反映了由成分性使能的语言的固有简明性。我们从几何学的角度研究了这个问题，通过将数据集中的成分性程度与在语言模型下其表示的固有维数（ID）联系起来，衡量特征的复杂性。我们发现数据集中的成分性程度不仅反映在表示的ID中，而且成分性与几何复杂性的关系是由训练中学习到的语言特征导致的。最后，我们的分析揭示了非线性和线性维度编码语言组成中语义和表面特征之间的显著对比。

发布时间: 2/10/2025

查看原文

smirk：用于分子基础模型的原子完备分词器

作者: Alexius Wadell, Anoushka Bhutani, Venkatasubramanian Viswanathan

arXiv:2409.15370v2 公告类型: replace-cross 摘要：基于文本的基础模型已成为科学研究的重要组成部分，分子基础模型加速了分子设计和材料科学的进步。然而，现有的模型受限于封闭词汇量的分词器，只能捕获分子空间的一小部分。在本工作中，我们系统地评估了三十种分词器，包括19种化学专用分词器，它们对SMILES分子表示语言的覆盖范围，揭示了显著的差距。为了评估分词器选择的影响，我们引入n-克语文本模型作为低成本代理，并通过为分子性质预测训练和微调18种RoBERTa风格编码器来验证其有效性。为克服现有分词器的局限性，我们提出了两种新的分词器——Smirk和Smirk-GPE，它们全面覆盖了OpenSMILES规范。我们的结果强调了在化学信息学中采用开放词汇量建模和化学多样基准的必要性。提出的分词器框架系统地整合了核、电子和几何自由度；这促进了在药理学、农业、生物学和能量存储领域的应用。

发布时间: 2/10/2025

查看原文