arXiv 论文列表

作者: Jiaqi Wei, Hao Zhou, Xiang Zhang, Di Zhang, Zijie Qiu, Wei Wei, Jinzhe Li, Wanli Ouyang, Siqi Sun

arXiv:2504.14858v1 发布类型: 新摘要: 回忆增强生成（RAG）已成为基于知识的文本生成的基础范式。然而，现有的RAG管道往往无法确保生成的推理轨迹与检索内容施加的证据约束一致。在本文中，我们重新定义RAG为 retrieval-aware 推理问题，并识别出一个核心挑战：推理失衡——模型的推理轨迹与检索到的证据之间的不匹配。为了解决这一挑战，我们提出了 AlignRAG，这是一种新的测试时框架，通过迭代的 Critique-Driven Alignment (CDA) 步骤来缓解推理失衡。与依赖静态训练或事后选择的先前方法不同，AlignRAG 在推理过程中积极地通过证据的细粒度对齐来细化推理轨迹。我们的框架通过以下方式引入一种 retrieval-aware 推理的新范式：（1）构建丰富的训练语料库；（2）从意识偏好的推理轨迹中生成对比批评；（3）训练一个专门的 Critic 语言模型（CLM）以识别推理失衡；（4）应用 CDA 步骤以迭代优化推理轨迹。实验证明，AlignRAG 一贯优于所有基线方法，并且可以在不进行进一步更改的情况下集成到现有的 RAG 管道中作为即插即用模块。通过将 RAG 重新概念化为结构化的推理轨迹，并建立了用于在 RAG 中纠正推理失衡的测试时框架，AlignRAG 为 retrieval-aware 生成提供了实用的进步。

发布时间: 4/22/2025

查看原文

在大型语言模型中建立奖励模型可靠性的指标

作者: Yizhou Chen, Yawen Liu, Xuesi Wang, Qingtao Yu, Guangda Huzhang, Anxiang Zeng, Han Yu, Zhiming Zhou

arXiv:2504.14838v1 宣布类型: 新摘要: 表征人类偏好的奖励模型 (RM) 在优化大型语言模型 (LLM) 的输出方面发挥着重要作用，例如通过基于人类反馈的强化学习 (RLHF) 或拒绝采样。然而，RM 的可靠性始终存在不确定性问题，即具有较高奖励的 LLM 输出可能与实际人类偏好不一致。目前缺乏一个令人信服的指标来量化 RMs 的可靠性。为了解决这一问题，我们提出了 \textit{\underline{R}eliable at \underline{$\eta$}} (RETA) 指标，该指标通过评估由 RM 评估的前 $\eta$ 分位数响应的平均质量（由 Oracle 评分）直接衡量 RM 的可靠性。在 RETA 之上，我们提供了一种集成的基准测试管道，任何人都可以在不增加额外 Oracle 标注成本的情况下评估自己的 RM。广泛的实证研究表明，RETA 指标的稳定性优越，为各种公开可用和专有的 RMs 提供了坚实的可靠性评估。在处理不可靠的 RM 时，我们可以使用 RETA 指标来识别选择响应的最佳分位数。

发布时间: 4/22/2025

查看原文

DONOD：通过模型内在数据集修剪实现LLMs的稳健且通用的指令微调

作者: Jucheng Hu, Surong Yang, Dongzhan Zhou, Lijun Wu

arXiv:2504.14810v1 宣布类型: 新摘要: 为特定领域适应而对大型语言模型（LLMs）进行即兴指令微调是广泛采用的方法。虽然领域特定的监督微调（SFT）有效且高效，但往往会削弱跨领域的泛化能力，并且难以处理嘈杂的训练数据。为了解决这些挑战，我们提出了一种轻量级的模型内在数据剪枝方法DONOD。我们的方法使用两个基于模型参数的度量标准来评估数据：Δ范数（DON），它捕捉了对模型权重的影响积累，以及Δ范数范数（NOD），它量化了权重的不稳定性。此外，通过采用理想解法排序优选法（TOPSIS）算法，我们有效地过滤掉了嘈杂的、不可学习的和泛化能力受损的样本，而无需在SFT过程中依赖辅助模型。在数学任务上的实验表明，DONOD选择的数据在微调效率上表现出色，并且在嘈杂数据下的鲁棒性得到改善。通过过滤掉60%的完整数据集，我们提高了目标领域的准确率14.90%和跨领域的准确率5.67%。同时，我们选择的数据在跨架构泛化上表现出色。较小的模型（例如，Llama 3.1-8B）剪枝后能够有效地泛化到较大的模型（例如，Llama 2-13B）。与现有的相关方法相比，DONOD表现出相当或更优的性能，同时保持对数据集的无偏差性，从而使其具有更广泛的适用性。

发布时间: 4/22/2025

查看原文

PLANET: 评估LLM规划能力的基准集合

作者: Haoming Li, Zhaoliang Chen, Jonathan Zhang, Fei Liu

arXiv:2504.14773v1 宣告类型: 新摘要: 规划是代理和代理型人工智能的核心。规划能力，例如在预算范围内创建旅行计划，无论是在科学还是商业领域都有着巨大的潜力。此外，最优计划通常比起即兴方法需要更少的资源。到目前为止，对现有规划基准的全面理解似乎仍然缺乏。缺乏这种理解，在不同领域比较规划算法的性能或为新场景选择合适的算法仍然具有挑战性。在本文中，我们检查了一系列规划基准，以识别算法开发中常用的测试环境，并指出潜在的差距。这些基准被分类为具身环境、网络导航、调度、游戏和拼图以及日常生活任务自动化。我们的研究推荐适用于各种算法的最佳基准，并提供指导未来基准开发的洞见。

发布时间: 4/22/2025

查看原文

带有情绪的AI：探索大型语言模型中的情绪表达

作者: Shin-nosuke Ishikawa, Atsushi Yoshino

arXiv:2504.14706v1 通知类型: 新摘要: 大型语言模型（LLMs）在各种任务上达到human-level的性能，引发了人们对人工智能（AI）未来可能具备情感的期待。为了探索当前LLMs在输出中表达情感的能力，我们使用了几种LLMs（OpenAI GPT、Google Gemini、Meta Llama3和Cohere Command R+）进行了一场角色扮演实验，要求它们以指定的情感状态回答问题。我们使用Russell的情感圆盘模型来定义情感状态，该模型是广泛认可的框架，用于沿着唤醒-激活（arousal）和愉快-不愉快（valence）轴来表征情感。我们选择了这一模型，因为它结构简单，仅利用了两个连续参数，这使得在涉及情感状态连续变化的应用中能够更好地进行控制。生成的响应使用与LLMs独立的、基于GoEmotions数据集训练的情感分析模型进行了评价。评价结果显示，生成的答案的情感状态与规定的一致，表明LLMs具备情感表达的能力。这表明基于LLM的AI代理有可能模拟情感，从而开辟了情感基交互的广泛应用场景，比如能够在提供建议或意见时带有人情味的顾问或咨询师。

发布时间: 4/22/2025

查看原文

基于LLM的体现式智能体任务规划安全基准测评与对齐框架

作者: Yuting Huang, Leilei Ding, Zhipeng Tang, Tianfu Wang, Xinrui Lin, Wuyang Zhang, Mingxiao Ma, Yanyong Zhang

arXiv:2504.14650v1 安全公告类型: 新颖摘要: 大型语言模型（LLMs）因其高级推理和理解能力，在增强具身代理的任务规划能力方面显示出巨大的潜力。然而，这些代理的整体安全性仍然是一个未被充分探索的领域。在本研究中，我们提出Safe-BeAl，这是一种用于测量（SafePlan-Bench）和对齐（Safe-Align）基于LLM的具身代理行为的安全整合框架。SafePlan-Bench建立了一个全面的任务规划安全性评估基准，涵盖了2,027个日常任务及其对应的环境，并分布在8个不同的危险类别中（例如，火灾危险）。我们的实证分析表明，即使在没有对抗性输入或恶意意图的情况下，基于LLM的代理也可能表现出不安全的行为。为缓解这些隐患，我们提出了Safe-Align，这是一套方法，旨在将物理世界的安全知识集成到基于LLM的具身代理中，同时保持任务特定的性能。在多种环境下的实验表明，Safe-BeAl 提供了全面的安全验证，相比基于GPT-4的具身代理，安全性能提高了8.55 - 15.22%，同时确保了任务的成功完成。

发布时间: 4/22/2025

查看原文

运动中的共识：概率聚合中顺序学习动态理性的一个案例

作者: Polina Gordienko, Christoph Jansen, Thomas Augustin, Martin Rechenauer

arXiv:2504.14624v1 聚合类型: 新摘要: 我们提出了一种基于命题概率逻辑的概率聚合框架。与传统的判断聚合专注于静态理性不同，我们的模型通过确保集体信念与新信息的一致更新来解决动态理性问题。我们证明，对于一个非嵌套议程来说，任何兼容一致性和独立性的聚合规则都必定是线性的。此外，我们还提供了公平学习过程的充分条件，在这种过程中，个体最初在一组称为共同基础的特定命题上达成一致，且新信息仅与此共享基础相关。这保证了通过贝叶斯条件化更新个人判断（无论是聚合前还是聚合后），最终得到相同的集体信念。我们框架的一个显著特点是它处理顺序决策的方式，这使得新信息可以在多个阶段逐步纳入，同时保持已建立的共同基础。我们通过一个关于医疗保健和移民政策的政治场景跑例，说明了我们的发现。

发布时间: 4/22/2025

查看原文

UFO2：桌面代理操作系统

作者: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

arXiv:2504.14603v1 通知类型: 新摘要: 近期由多模态大型语言模型驱动的计算机使用代理（CUAs）为通过自然语言自动化复杂桌面工作流提供了有希望的方向。然而，现有的大多数CUAs仍然是概念性的原型，受到浅层操作系统集成、基于屏幕截图的交互的脆弱性以及执行中断的阻碍。我们介绍了UFO2，这是一种为Windows桌面设计的多代理AgentOS，将CUAs提升为实用的系统级自动化。UFO2具备一个中心化的HostAgent用于任务分解和协调，以及一系列具有内置API、领域特定知识和统一的GUI--API操作层的应用程序专门化AppAgent。这种架构使得任务执行更加 robust，同时保持模块化和可扩展性。混合控制检测管道结合了Windows UI自动化（UIA）与基于视觉的解析，以支持多种界面样式。通过推测性多动作规划，进一步提高了运行时效率，减少了每步LLM的开销。最后，一个画中画（PiP）接口使自动化能够在隔离的虚拟桌面中进行，允许代理和用户同时操作而不互相干扰。我们对UFO2进行了跨20多个真实世界的Windows应用程序的评估，显示其在鲁棒性和执行准确性方面相对于之前的CUAs有显著改进。我们的结果表明，深层次的OS集成有望开辟一条通往可靠、用户对齐的桌面自动化的大规模可行途径。

发布时间: 4/22/2025

查看原文

向智能的公理化迈进：结构、时间与存在

作者: Kei Itoh

arXiv:2504.14596v1 宣布类型: 新颖摘要: 本研究旨在在一个元框架内构建一种公理化定义的智能，该元框架定义了定义的方法，并将智能视为一种本质上无知且多义的概念。首先，我们用集合理论的形式化方法来表示智能存在的宇宙，并将智能定义为一种涉及时间演化和与其他集合互动的结构。从智能的朴素定义出发，即“一种具有外部输入、内部处理和外部输出信息或物质的结构的实体”，我们在此集合理论的框架内对其进行了公理化重新定义。应用这一公理化定义，我们对三种例子——海Bi联想非优化神经网络（NNs）、反向传播优化NNs和生物反射系统——从其智能、结构属性和生物学可行性方面进行了比较和解释。此外，通过将我们对智能的定义扩展到范畴框架中，我们引入了两个范畴——“时间范畴”和“智能范畴”，以及它们之间的函子关系，展示了抽象地表示和模仿智能系统变化及其关系的潜力。另外，由于根据此处定义的智能只有在伴随时间交互时才能有效运行，我们引入了“活动”的概念，并探讨了基于活动条件如何影响对智能的分类和解释。最后，我们建议，我们的定义方法不仅适用于智能，还可以应用于其他概念，如知觉和情绪，主张通过相同的程序步骤——定义通用表示、选择朴素定义和公理化形式化——对他们进行正式重定义。

发布时间: 4/22/2025

查看原文

LLM-辅助的上下文感知数据采集调度在无人机辅助传感器网络中

作者: Yousef Emami, Hao Gao, SeyedSina Nabavirazani, Luis Almeida

arXiv:2504.14556v1 通告类型: 新摘要: 无人机（UAV）在各种私人和商业应用中越来越受欢迎，例如交通控制、包裹递送和搜救（SAR）操作。在无人机辅助传感器网络（UASNETs）和特别是在深度强化学习（DRL）中使用的机器学习（ML）方法面临挑战，如复杂的模型训练过程、模拟与现实之间的差距以及样本效率低的问题，这些都与SAR等紧急情况的迫切需求相冲突。本文提出了一种基于上下文学习（ICL）的数据采集调度（ICLDC）方案，作为紧急情况下的DRL替代方案。无人机收集和传输记录的传感器数据到一个语言模型（LLM），从中生成自然语言的任务描述，依据该描述获得无人机执行的数据采集调度。系统不断适应，通过添加反馈来改进任务描述，并利用反馈进行未来的决策。该方法被测试以应对破解攻击，其中任务描述被操控以破坏网络性能，强调了LLMs对这类攻击的脆弱性。所提出的ICLDC通过减少累加的包丢失约56%的方式优于最大信道增益。ICLDC为无人机辅助数据采集的智能调度和控制提供了有前景的方向。

发布时间: 4/22/2025

查看原文