arXiv 论文列表

步步为营！基于迭代步骤级过程细化的 LLM 智能体学习

大型语言模型代理在各种复杂的交互式任务中表现出卓越的性能。最近的方法利用专家轨迹进行微调以提高代理性能，但它们主要集中在结果奖励上，由于缺乏过程监督信号，这可能会导致错误或次优行为。在本文中，我们介绍了迭代步骤级过程细化 (IPR) 框架，该框架提供详细的逐步指导来增强代理训练。具体来说，我们采用蒙特卡罗方法来估计步骤级奖励。在每次迭代中，代理沿着专家轨迹探索并生成新的动作。然后，使用步骤级奖励将这些动作与专家轨迹的相应步骤进行评估。这种比较有助于识别差异，产生对比动作对，这些动作对作为代理的训练数据。我们在三个复杂代理任务上的实验表明，我们的框架优于各种强大的基线。此外，我们的分析结果突出了 IPR 在增强动作效率和其对不同模型的适用性方面的有效性。

发布时间: 9/25/2024

查看原文

基于自适应直接偏好优化的语言模型知识编辑

大型语言模型（LLM）随着时间的推移可能会变得过时，因为它们可能缺乏更新的知识，从而导致事实性知识错误和缺失。知识编辑（KE）旨在通过无需昂贵重新训练的权重更新来克服这一挑战。我们建议将 KE 视为一个 LLM 对齐问题。为了实现这一目标，我们引入了知识直接偏好优化 (KDPO)，这是直接偏好优化 (DPO) 的一种变体，更有效地进行知识修改。我们的方法基于一种在线方法，该方法持续更新存储在模型中的知识。我们在一个称为 DPO 的过程中使用当前知识作为负样本，使用我们想要引入的新知识作为正样本。我们还使用教师强迫进行负样本生成，并使用正样本进行优化，这有助于保持局部变化。我们在各种数据集和模型上测试了我们的 KE 方法，将其与几种最先进的方法进行了比较，其中包含 100 和 500 个顺序编辑。此外，我们进行了一项消融研究，将我们的方法与标准 DPO 方法进行了比较。我们的实验结果表明，我们改进的 DPO 方法允许更精细的 KE，与之前的方法相比，取得了相似或更好的性能。

发布时间: 9/25/2024

查看原文

失败案例上的有效性学习：缓解自动驾驶规划中的分布偏移

规划问题是自动驾驶框架的一个基本方面。近年来，表征学习的进步使得车辆能够理解其周围环境，从而促进了基于学习的规划策略的集成。在这些方法中，模仿学习因其显著的训练效率而脱颖而出。然而，传统的模仿学习方法面临着与协变量偏移现象相关的挑战。我们提出了一种基于失败的有效性学习方法，VL(on failure)，来解决这个问题。该方法的核心在于将预先训练的规划器部署到各种场景中。当规划器偏离其直接目标时，例如与障碍物保持安全距离或遵守交通规则，这些情况将被标记为失败。这些失败对应的状态被编译成一个新的数据集，称为失败数据集。值得注意的是，由于该数据缺乏专家标注，因此无法应用标准模仿学习方法。为了便于从闭环错误中学习，我们引入了VL目标，旨在识别当前环境背景下的有效轨迹。在反应式CARLA模拟和非反应式日志回放模拟上进行的实验评估表明，闭环指标（如分数、进度和成功率）得到了显著提升，这突出了所提方法的有效性。进一步针对Bench2Drive基准进行的评估表明，VL(on failure)在很大程度上优于最先进的方法。

发布时间: 9/25/2024

查看原文

Quest：面向查询的数据合成方法，用于大型语言模型的长上下文扩展

大型语言模型最初在有限的上下文长度下进行预训练，可以通过在扩展上下文的语料库上继续训练来更好地处理更长的文本。然而，由于不同领域中长文档的稀缺性和分布不均，获取有效的长上下文数据具有挑战性。为了解决这个问题，我们提出了一种以查询为中心的**数据合成**方法，简称**Quest**。Quest 是一种可解释的方法，基于这样的观察：由类似查询检索到的文档是相关的，但冗余度低，因此非常适合合成长上下文数据。该方法也具有可扩展性，能够构建大量长上下文数据。利用 Quest，我们合成了一个长达 128k 上下文长度的长上下文数据集，在多个长上下文基准数据集上显著优于其他数据合成方法。此外，我们通过**扩展定律**实验进一步验证了 Quest 方法的可预测性，使其成为推动长上下文模型发展的可靠解决方案。

发布时间: 9/25/2024

查看原文

带实数和浮点数的循环图神经网络的逻辑刻画

在 2019 年的开创性工作中，Barceló 及其合作者确定了与一阶逻辑可定义的性质相关的恒定迭代深度图神经网络 (GNN) 的表达能力相匹配的逻辑。在本文中，我们给出了递归 GNN 在两种情况下精确的逻辑表征：(1) 在使用浮点数的环境中，以及 (2) 在使用实数的环境中。对于浮点数，与递归 GNN 相匹配的形式化是一种具有计数功能的基于规则的模态逻辑，而对于实数，我们使用一种合适的无穷模态逻辑，也具有计数功能。这些结果在递归设置中给出了逻辑和 GNN 之间的精确匹配，而无需将任何一种情况归属于背景逻辑，但使用了一些关于浮点运算的自然假设。应用我们的表征，我们还证明了相对于一阶单调逻辑 (MSO) 中可定义的图性质而言，我们的无穷逻辑和基于规则的逻辑具有相同的表达能力。这意味着具有实数和浮点数的递归 GNN 对 MSO 可定义的性质具有相同的表达能力，并且表明，对于此类性质，具有实数的递归 GNN 也由 (有限的！) 基于规则的模态逻辑来表征。相反，在一般情况下，浮点数的表达能力弱于实数。除了面向逻辑的结果外，我们还通过分布式自动机来表征具有实数和浮点数的递归 GNN，从而建立了与分布式计算模型的联系。

发布时间: 9/25/2024

查看原文

基于多智能体强化学习的自主交叉路口管理分布式方法

自主路口管理 (AIM) 由于现实世界交通场景的复杂性和对负责同时控制所有车辆的高成本集中式服务器的需求，带来了重大挑战。本研究通过提出一种利用多智能体强化学习 (MARL) 的新型分布式 AIM 方法来解决这些问题。我们表明，通过利用 3D 环视技术为高级辅助系统提供支持，自动驾驶车辆可以准确地导航路口场景，而无需任何集中式控制器。因此，本文的贡献包括一种用于 4 向路口自主管理的基于 MARL 的算法，以及一种名为优先场景重放的新策略，以提高训练效率。我们验证了我们的方法作为传统集中式 AIM 技术的创新替代方案，确保了我们结果的完全可重复性。具体而言，在使用 SMARTS 平台的虚拟环境中进行的实验突出了其在各种指标上的优越性。

发布时间: 9/25/2024

查看原文

时间证据融合网络：长期时间序列预测中的多源视角

在实际应用中，时间序列预测不仅需要准确性，还需要效率。因此，探索模型架构一直是研究中的热门话题。为了应对这些挑战，我们从信息融合的角度提出了一种名为时间证据融合网络（TEFN）的新型骨干架构。具体来说，我们引入了基于证据理论的基本概率分配（BPA）模块，以捕获多变量时间序列数据在通道和时间维度上的不确定性。此外，我们开发了一种新颖的多源信息融合方法，有效地整合了BPA输出的两个不同维度，从而提高了预测精度。最后，我们进行了大量的实验，证明TEFN在保持显著更低复杂度和更短训练时间的同时，实现了与最先进方法相当的性能。此外，我们的实验表明，TEFN表现出很高的鲁棒性，在超参数选择期间误差波动很小。此外，由于BPA源自模糊理论，TEFN具有高度的可解释性。因此，所提出的TEFN平衡了准确性、效率、稳定性和可解释性，使其成为时间序列预测的理想解决方案。

发布时间: 9/25/2024

查看原文

基于文献综述的人工智能医疗领域大型语言模型评估框架

随着生成式人工智能（AI），特别是大型语言模型（LLM）在医疗保健领域的不断应用，用人工评估来补充传统的自动化评估至关重要。理解和评估LLM的输出对于确保其安全、可靠性和有效性至关重要。然而，人工评估繁琐、耗时且缺乏标准化的特点，给全面评估和LLM在实践中的广泛应用带来了重大障碍。本研究回顾了关于医疗保健领域LLM人工评估方法的现有文献。我们强调了对标准化和一致的人工评估方法的显著需求。我们遵循系统评价和荟萃分析的优选报告项目（PRISMA）指南，对2018年1月至2024年2月的出版物进行了广泛的文献检索。该综述考察了LLM在各个医学专业的评估，涉及评估维度、样本类型和大小、评估人员的选择和招募、框架和指标、评估过程以及统计分析类型等因素。借鉴这些研究中采用的多种评估策略，我们提出了一个全面且实用的LLM人工评估框架：QUEST：信息质量、理解和推理、表达风格和角色、安全和伤害以及信任和信心。该框架旨在通过定义明确的评估维度和提供详细的指南，提高LLM在不同医疗保健应用中人工评估的可靠性、通用性和适用性。

发布时间: 9/25/2024

查看原文

带预算的随机多轮次子模优化

在本研究中，我们研究了随机预算多轮子模最大化（SBMSm）问题，该问题旨在自适应地最大化多个轮次中定义在项目子集上的单调子模目标函数的总和。目标函数还取决于随机事件的实现，并且我们在所有轮次中可以选择的项目总数受限于有限的预算。该问题扩展了并推广到多轮设置，例如（自适应）影响最大化和随机探测等经过充分研究的问题。我们表明，如果项目和随机事件的数量以某种方式受到限制，则存在针对 SBMSm 的多项式时间动态规划算法。然后，我们为 SBMSm 提供了一个简单的贪婪 1/2(1-1/e-ε)≈ 0.316 近似算法，该算法首先非自适应地分配要在每轮中花费的预算，然后通过使用分配给每轮的预算来贪婪地和自适应地最大化目标函数。最后，我们引入了“预算自适应差距”，通过该差距，我们衡量了 SBMSm 的自适应策略比最优部分自适应策略（如我们的贪婪算法一样，预先确定预算分配）好多少。我们表明预算自适应差距介于 e/(e-1)≈ 1.582 和 2 之间。

发布时间: 9/25/2024

查看原文

面向目标的生成式提示注入攻击大型语言模型

当前的大型语言模型 (LLM) 为大规模用户导向的自然语言任务提供了坚实的基础。大量用户可以通过用户界面轻松注入对抗性文本或指令，从而导致 LLM 模型安全挑战。尽管目前针对提示注入攻击的研究很多，但大多数黑盒攻击都使用启发式策略。目前尚不清楚这些启发式策略与攻击成功率之间的关系，因此难以有效地提高模型鲁棒性。为了解决这个问题，我们重新定义了攻击目标：最大化干净文本和对抗文本的条件概率之间的 KL 散度。此外，我们证明了当条件概率为高斯分布时，最大化 KL 散度等同于最大化干净文本嵌入表示 $x$ 和对抗文本嵌入表示 $x'$ 之间的马氏距离，并给出了 $x$ 和 $x'$ 之间的定量关系。然后，我们设计了一种简单有效的目标导向生成式提示注入策略 (G2PIA)，以找到满足特定约束条件的注入文本，从而近似地实现最佳攻击效果。尤其值得注意的是，我们的攻击方法是一种无需查询的黑盒攻击方法，计算成本低。在七种 LLM 模型和四个数据集上的实验结果表明了我们攻击方法的有效性。

发布时间: 9/25/2024

查看原文