arXiv 论文列表

作者: Shima Khoshraftar, Niaz Abedini, Amir Hajian

arXiv:2502.10522v1 宣告类型: 新摘要: 将大型语言模型 (LLMs) 应用于图形数据最近引起了广泛关注。LLMs 允许我们在文本标注的图中使用预训练模型的深层次上下文嵌入，而在节点的文本属性中通常使用浅层次嵌入。然而，仍然具有挑战性的是将图形结构和特征高效地编码为 LLM 可用的序列形式。此外，单独的 LLM 的性能高度依赖于输入提示的结构，这限制了它们作为可靠方法的有效性，并且通常需要反复的手动调整，这可能会变得缓慢、繁琐且难以程序化地复现。在这篇论文中，我们提出了一种称为 GraphiT（图形在文本中）的框架，用于将图形编码为文本格式，并优化 LLM 提示以用于图形预测任务。在这里我们关注的是文本标注的图形中的节点分类。我们将每个节点及其邻域的图形数据编码为简洁的文本，以使 LLM 更好地利用图中的信息。然后，我们使用 DSPy 框架进一步程序化地优化 LLM 提示，以自动化这一步骤，使其更具效率和可重现性。GraphiT 在三个数据集上超过了我们的基于 LLM 的基线，并展示了 GraphiT 中的优化步骤如何在无需手动提示调整的情况下实现可测量的改进。我们还展示了我们的图形编码方法在与其它图形编码方法竞争的同时，由于使用显著较少的令牌而更具成本效益。

发布时间: 2/18/2025

查看原文

使用跨注意力信号进行大型语言模型微调的自我监督强化学习方法

作者: Andrew Kiruluta, Andreas Lemos, Priscilla Burity

arXiv:2502.10482v1 宣布类型: 新摘要: 我们提出了一种新的后训练大型语言模型的强化学习框架，该框架不依赖于人类在环反馈。相反，我们的方法使用模型本身内的交叉注意信号来推导出自我监督的奖励，从而引导模型策略的迭代微调。通过分析模型在生成过程中对输入提示的注意力机制，我们构建了提示覆盖面、焦点和一致性度量。然后，我们使用这些度量来对候选响应进行排序或评分，提供一个奖励信号，鼓励模型生成符合主题且对齐良好的文本。在与标准策略梯度方法和使用合成偏好模型的RL微调方法的实证比较中，我们的方法在提示相关性和一致性方面显著优于非RL基线。虽然它尚未达到完全基于人类监督的RLHF系统的性能，但它强调了通过最少的人类标注进行可扩展性对齐的重要方向。我们提供了详细的分析，讨论了潜在的限制，并概述了结合基于交叉注意力的信号和少量人类反馈的未来工作。

发布时间: 2/18/2025

查看原文

自动驾驶车辆预测与规划中的知识集成策略：一项综合调研

作者: Kumar Manas, Adrian Paschke

arXiv:2502.10477v1 宣告类型: 新摘要: 这篇全面的综述探讨了知识导向方法在自主驾驶系统中的集成，重点是轨迹预测和规划。我们系统地回顾了将领域知识、交通规则和常识推理纳入这些系统的方法，涵盖了从纯符号表示到混合神经符号架构的各种方法。尤其是，我们分析了形式逻辑和微分逻辑编程、强化学习框架以及利用大型基础模型和扩散模型的知识表示技术的最新进展。在统一的文献综述部分下，我们的讨论将最先进的技术综合为高层次的概述，并通过详细的比较表将关键工作与各自的方法论类别进行匹配。这篇综述不仅突出了当前的趋势，包括对可解释人工智能的日益重视、在安全关键系统中的形式验证以及在预测和规划中的生成模型使用增加，而且还界定了开发稳健、知识增强型自主驾驶系统所面临的挑战和机遇。

发布时间: 2/18/2025

查看原文

基于上下文的列项奖励偏好多目标规划

作者: Pulkit Rustagi, Yashwanthi Anand, Sandhya Saisubramanian

arXiv:2502.10476v1 宣告类型: 新摘要: 自主代理经常需要在多种具有基于上下文变化的偏好排序的目标中进行规划。代理在其操作过程中可能会遇到多种上下文，每种上下文都施加了一种独特的字母顺序目标排序，每个上下文可能还与不同的奖赏函数相关联。现有的多目标规划方法通常在整个状态空间中考虑目标的单一偏好排序，并不支持在环境中进行多种目标排序的规划。我们提出了上下文字母顺序马尔可夫决策过程（Contextual Lexicographic Markov Decision Process, CLMDP），一个框架，使代理能够在不同的上下文中根据不同的字母顺序目标排序进行规划。在CLMDP中，一个状态下的目标排序和相关的奖赏函数都由上下文决定。我们使用贝叶斯方法从专家轨迹中推断状态-上下文映射。我们解决CLMDP算法首先为每个目标排序计算一个策略，然后将它们组合成一个上下文感知的有效且无环的策略。所提方法的有效性在仿真和使用移动机器人的情况下进行了评估。

发布时间: 2/18/2025

查看原文

基于金融算法方法的离线强化学习多样化Transformer解码

作者: Dan Elbaz, Oren Salzman

arXiv:2502.10473v1 类型：new 摘要：离线强化学习（Offline RL）算法使用固定的训练数据集来学习策略，然后将该策略部署在线上环境中进行交互和决策。由于建模时间序列数据的标准选择是变压器，因此在离线RL中，变压器也开始流行起来。在此背景下，束搜索（BS）是一种常用的近似推断算法，通常作为解码方法。离线RL消除了在线数据收集的高成本或风险的需求。然而，受限的数据集会引起不确定性，因为代理在执行过程中可能会遇到训练数据中未涵盖的陌生状态和动作序列。在此背景下，BS缺乏两个对于离线RL至关重要的属性：它没有考虑到上述的不确定性，而且其贪婪的左右搜索方法往往会导致变异性最小的序列，无法探索潜在更好的替代方案。为了克服这些限制，我们提出了一种名为组合束搜索（Portfolio Beam Search，PBS）的新颖替代方法，这是一种在进行解码时平衡探索与利用的简单而有效的方案，用于变压器模型。我们从金融经济学中汲取灵感，并将这些原则应用于开发一种认知不确定性的多样性机制，在推断时将其集成到顺序解码算法中。我们在D4RL运动基准测试中实证展示了PBS的有效性，它实现了更高的回报并显著降低了结果的变异性。

发布时间: 2/18/2025

查看原文

自主决定的人工智能对齐AI Alignment at Your Discretion

作者: Maarten Buyl, Hadi Khalaf, Claudio Mayrink Verdun, Lucas Monteiro Paes, Caio C. Vieira Machado, Flavio du Pin Calmon

arXiv:2502.10441v1 宣布类型: 新摘要: 在人工智能对齐中，必须给予注释者（无论是人类还是算法）相当大的灵活性，以判断哪些模型输出是“更好”或“更安全”的。我们将这种灵活性称为对齐自主权。这种自主权目前尚未进行广泛 examination，存在两个风险：（i）注释者可能会随意行使这种自主权，（ii）模型可能会未能模仿这种自主权。为研究这一现象，我们借鉴了法律中的自主权概念，这些概念结构化了如何授予并行使决策权，特别是在原则冲突或其应用模糊或不相关的情况下。扩展到人工智能对齐中，当对齐原则和规则（不可避免地）冲突或难以决定时，也需要自主权。我们提出了一套指标，以系统分析在人工智能对齐中何时以及如何行使这种自主权，从而使上述两种风险（i）和（ii）得以观察。此外，我们区分了人类和算法自主权，并分析了它们之间的差异。通过测量人类和算法在安全对齐数据集上的自主权，我们揭示了对齐过程中先前未曾考虑到的多层自主权。此外，我们展示了这些数据集上的训练算法如何发展出自己独特形式的自主权以解释和应用这些原则，这挑战了制定任何原则的意义。我们的论文标志着朝着正式化目前对齐过程中核心缺失的第一步，并呼吁社区进一步审视和控制对齐自主权。

发布时间: 2/18/2025

查看原文

人工智能系统的自主性

作者: Parashar Das

arXiv:2502.10434v1 宣告类型: 新摘要：人们普遍担心当前的人工智能(AI)研究将会导致产生有意识的AI系统，而这些系统可能会对人类构成生存威胁。但为什么这些有意识的AI系统不能反而对人类有益呢？本文致力于将这个问题简化为可处理的形式。我询问一个假定的AI系统是否会发展出对社会的利他或恶意倾向，或者其机构的本质是什么？鉴于AI系统正被开发成为强大的问题解决者，我们可以合理地期望这些系统优先采取人类问题解决中的有意识特征。我指出了人类问题解决中相关现象特征的机构方面。意识机构的功能方面可以通过由意识的功能主义理论提供的工具进行监控。Butlin等人(2023)的一项最新专家报告基于这些理论识别了功能主义的机构特征指标。我展示如何使用意识的整合信息理论(IIT)来监控这种机构的现象性质。如果我们能够监控AI系统在其发展过程中的机构，那么我们可以遏制它们成为社会祸害的同时，鼓励它们成为一种帮助。

发布时间: 2/18/2025

查看原文

动态链式思考：朝着适应性深度推理的方向

作者: Libo Wang

arXiv:2502.10428v1 计算机科学领域新研究摘要: 为减少由计算冗余和延迟的奖励分配在长推理链中引起的成本和计算资源消耗，本研究提出了一种具有自适应推理时间和步骤的动态推理链。研究者使用Python 3.13 IDLE结合基于GPTs的Python模拟器进行了仿真试验，以模拟D-CoT的集成。同时，研究者使用DeepSeek R1作为对照组，测试并比较D-CoT模拟器在处理MIT OpenCourseWare的线性代数考试问题时的表现。实验结果表明，在推理时间、推理链长度（推理步骤）和标记计数这三个指标上，D-CoT相较于DeepSeek R1在长推理链中表现更优，实现了显著的计算资源消耗降低。此外，该研究在深度推理优化方面具有潜在价值，并可作为未来动态深度推理框架的参考。

发布时间: 2/18/2025

查看原文

位置：停止将语言模型代理视为正常代理

作者: Elija Perrier, Michael Timothy Bennett

arXiv:2502.10420v1 宣告类型: 新摘要：语言模型代理（LMAs）越来越多地被视为能够自主导航与人类和工具的交互。它们的设计和部署往往假定它们是正常的代理，能够维持一致的目标，适应不同的环境，并以一定的意图性进行行动。这些假设对于工业、社会和政府领域的潜在应用场景至关重要。然而，LMAs并非正常的代理。它们继承了围绕其构建的大规模语言模型（LLMs）的结构问题：幻觉、出逃、对齐问题和不可预测性。在本文中，我们主张不应将LMAs视为正常的代理，因为这样做会导致影响它们实用性和可信度的问题。我们列出了与LMAs固有的代理病理。即使有外部记忆和社会工具的支撑，它们仍然保持着本质上的无状态性、随机性、语义敏感性和语言中介的特点。这些病理现象破坏了LMAs的本质属性，包括可识别性、连续性、持久性和一致性，从而对其声称的代理性提出质疑。作为回应，我们主张在、中和后的部署过程中应测量LMAs的本质属性，以便减轻病理现象的负面影响。

发布时间: 2/18/2025

查看原文

基于协调的方法在知识based系统的集中学习

作者: Abhishek Sharma

arXiv:2502.10394v1 宣告类型: 新摘要: 近期在“通过阅读学习”和“机器阅读”系统方面的进展显著提高了基于知识系统的学习新事实的能力。在这项工作中，我们讨论了如何选择一组学习请求，这些请求将导致最佳的问答性能。为了理解这个问题的动力学，我们模拟了一个学习策略的属性，该策略向外部知识源发送学习请求。我们表明，为这些基于知识的学习系统选择一组最优的事实类似于协调博弈，并使用强化学习来解决这个问题。实验表明，这种做法可以显著提高问答性能。

发布时间: 2/18/2025

查看原文