arXiv 论文列表

作者: Yingshui Tan, Yilei Jiang, Yanshi Li, Jiaheng Liu, Xingyuan Bu, Wenbo Su, Xiangyu Yue, Xiaoyong Zhu, Bo Zheng

arXiv:2502.11555v1 宣言类型: 新摘要：基于人类偏好的微调大型语言模型（LLMs），通常通过人类反馈强化学习（RLHF）实现，已被证明可以有效地提高其性能。然而，在整个微调过程中保持LLM的安全性仍然是一个重要挑战，因为平衡安全性和有用性之间的冲突往往复杂得多。通常情况下，LLM的安全对齐是在包含安全相关类别的数据上进行训练。然而，我们的实验发现，简单地增加安全训练数据的规模往往会导致LLM进入“过于安全”的状态，而不是“真正安全”的状态，通过大量的安全对齐数据来提升拒绝率，而在真正理解安全响应所需的前提条件方面却没有实质性的进步。这种做法可能会无意中降低模型的有用性。为了理解这一现象，我们首先通过将安全数据分类为三个不同的组来研究其作用，并观察随着训练数据规模的扩大，每个组表现出不同的行为。为了在安全性和有用性之间取得更好的平衡，我们提出了一个均衡的RLHF框架，包括一种细粒度数据为中心（FDC）的方法，在较少的训练数据下也能实现更好的安全对齐，以及一种适应性消息级对齐（AMA）方法，该方法通过梯度遮蔽策略选择性地突出关键段落。大量实验结果表明，我们的方法在提升LLM的安全对齐的同时，能够更好地平衡安全性和有用性。

发布时间: 2/18/2025

查看原文

个人化大型语言模型的研究进展及其未来方向

作者: Jiahong Liu, Zexuan Qiu, Zhongyang Li, Quanyu Dai, Jieming Zhu, Minda Hu, Menglin Yang, Irwin King

arXiv:2502.11528v1 通知类型: 新摘要: 大型语言模型（LLMs）在处理通用知识任务方面表现出色，但在应对用户特定的个性化需求方面存在困难，例如理解个体情感、写作风格和偏好。个性化大型语言模型（PLLLMs）通过利用个别用户数据，如用户资料、历史对话、内容和互动，来提供与上下文相关且符合每个用户特定需求的响应，从而解决这些挑战。这是一个极具价值的研究领域，因为PLLLMs可以显著提高用户满意度，并在对话代理、推荐系统、情绪识别、医疗助手等领域具有广泛的应用前景。本文综述了从三个技术角度 recent 进展的 PLLLM：个性化上下文提示（输入级）、个性化适配器微调（模型级）和个性化偏好的对齐（目标级）。为提供更深入的见解，我们还讨论了当前的局限性，并提出了若干有前途的研究方向。有关此综述的最新信息，请参见 https://github.com/JiahongLiu21/Awesome-Personalized-Large-Language-Models。

发布时间: 2/18/2025

查看原文

为什么视觉语言模型在视觉算术方面表现出色？ towards 提升图表和几何理解

作者: Kung-Hsiang Huang, Can Qin, Haoyi Qiu, Philippe Laban, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu

arXiv:2502.11492v1 通知类型: 新摘要：视觉语言模型（VLMs）在多模态任务中取得了显著进展，但在视觉算术方面却经常遇到困难，难以完成如对象计数或长度比较等看似简单的能力，而这些能力对于相关复杂的任务，如图表理解和几何推理来说是必不可少的。在这项工作中，我们首先通过一系列针对基本视觉算术的探针任务来调查这种缺陷的根本原因。我们的分析表明，虽然预训练的视觉编码器通常能够捕捉到足够的信息，但文本解码器往往无法正确地对其进行算术推理的解码。为此，我们提出了CogAlign，这是一种受皮亚杰认知发展阶段理论启发的新后训练策略。CogAlign 训练 VLMs 识别在视觉变换下的不变属性。我们证明，这种方法在我们提出的探针任务中显著提高了三种不同 VLMs 的性能。此外，CogAlign 在 CHOCOLATE 上平均提升了 4.6%，在 MATH-VISION 上提升了 2.9%，低于监督微调方法所需的训练数据量的 60%，并在性能上超过了或匹配了监督微调方法。这些结果突显了CogAlign 在提高基本视觉算术能力及其向下游任务的迁移方面的有效性与泛化能力。

发布时间: 2/18/2025

查看原文

AGrail: 一个有效的自适应安全检测终身智能体防护栏

作者: Weidi Luo, Shenghong Dai, Xiaogeng Liu, Suman Banerjee, Huan Sun, Muhao Chen, Chaowei Xiao

arXiv:2502.11448v1 安全类型: 新颖摘要: 大规模语言模型（LLMs）的快速发展使其能够作为自主代理，在动态环境中处理复杂的任务。这些LLMs展示了强大的问题解决能力和对多变场景的适应性。然而，作为代理使用也会带来显著的风险，包括任务特定风险，这类风险由代理管理员根据特定任务的需求和约束来识别，以及系统风险，这类风险源自于设计或交互中的漏洞，可能会损害信息的机密性、完整性和可用性（CIA），并引发安全风险。现有的防御机构无法适应性地有效地缓解这些风险。在本文中，我们提出了AGrail，这是一种终生代理护栏，旨在增强LLM代理的安全性，其特点是自适应的安全检查生成、有效的安全检查优化以及工具的兼容性和灵活性。广泛的实验表明，AGrail不仅能够针对任务特定和系统风险取得强大的性能，而且还能够在不同LLM代理的任务之间表现出可迁移性。

发布时间: 2/18/2025

查看原文

SMART：自我意识代理工具过度使用缓解

作者: Cheng Qian, Emre Can Acikgoz, Hongru Wang, Xiusi Chen, Avirup Sil, Dilek Hakkani-T\"ur, Gokhan Tur, Heng Ji

arXiv:2502.11435v1 宣告类型: 新摘要: 当前的大语言模型（LLM）代理展示了强大的推理和工具使用能力，但往往缺乏自我意识，难以有效平衡这些方法。这种不平衡导致了工具过度使用，模型在可以使用参数化知识解决的任务上无谓地依赖外部工具，增加了计算开销。受到人类元认知的启发，我们引入了SMART（战略模型感知推理与工具）范式，旨在增强代理的自我意识以优化任务处理并减少工具过度使用。为了支持这种范式，我们引入了SMART-ER数据集，该数据集跨越了三个领域，推理过程在参数化知识和工具依赖步骤之间交替，每一步都通过解释何时需要工具来丰富。通过监督训练，我们开发了SMARTAgent模型系列，能够动态平衡参数化知识和工具使用。评估结果显示，SMARTAgent在减少工具使用24%的同时还提高了37%以上的性能，使得7B规模的模型能够与70B规模的和GPT-4o版本保持同等性能。此外，SMARTAgent还能够泛化到如GSM8K和MINTQA之类的分布外测试数据上，仅通过五分之一的工具调用就能保持准确率。这些结果显示了战略工具使用在增强推理能力、减少过度使用和缩小模型规模与性能之间差距方面的潜力，推动了智能且资源效率高代理设计的进步。

发布时间: 2/18/2025

查看原文

FLAG-Trader：融合基于梯度强化学习的LLM-Agent金融市场交易系统

作者: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie

arXiv:2502.11433v1 宣告类型: 新摘要: 在多模态金融数据上进行微调的大语言模型(nLLMs)在各种金融任务中展现出了令人印象深刻的推理能力。然而，它们在交互式金融市场中，如交易这类涉及多步骤和目标导向场景的情况下，往往难以应对，这需要复杂的代理方法来提高决策制定能力。为了解决这一问题，我们提出了一种名为 \textsc{FLAG-Trader} 的统一架构，该架构将基于语言处理（通过大语言模型）与基于梯度的强化学习(RL)策略优化相结合，在这种架构中，部分微调的大语言模型作为策略网络运行，利用预训练知识并通过参数高效微调适应金融领域。通过由交易奖励驱动的策略梯度优化，我们的框架不仅提高了大语言模型在交易中的表现，还改善了其他金融领域任务的结果。我们提供了大量实验证据来验证这些改进。

发布时间: 2/18/2025

查看原文

基于蒙特卡洛树搜索在大规模语言模型上进行启发式策略规划：自动化启发式优化

作者: Chaoxu Mu, Xufeng Zhang, Hui Wang

arXiv:2502.11422v1 优化类型: 新摘要: 启发式方法在解决组合优化问题（COPs）方面取得了巨大成功。然而，由人类设计的启发式方法需要太多的领域知识和测试时间。鉴于大型语言模型（LLMs）具备强大的理解和生成内容的能力，并且拥有涵盖多种领域的知识库，这提供了一种新的自动优化启发式方法的方式。因此，我们提出了启发式规划（PoH），一种将大型语言模型的自我反思与蒙特卡洛树搜索（MCTS，一种广为人知的规划算法）结合起来的优化方法。PoH 通过评估生成的启发式方法的表现并提供改进建议，逐步细化生成的启发式方法。我们的方法通过有效模拟未来状态来搜索具有更高奖励的路径，从而迭代评估生成的启发式方法（状态）并基于改进建议（行动）和评估结果（奖励）进行改进。在这篇论文中，我们将 PoH 应用于解决旅行商问题（TSP）和流水线车间调度问题（FSSP）。实验结果表明，PoH 在克服其他手工艺品启发式方法和其他基于LLM的方法的自动化启发式设计（AHD）方面表现出色，并且在利用LLM的自动化启发式优化以解决COPs方面，我们的方法取得了显著的改进和最先进的性能。

发布时间: 2/18/2025

查看原文

TimeCAP：使用大型语言模型代理学习上下文化、扩展和预测时间序列事件

作者: Geon Lee, Wenchao Yu, Kijung Shin, Wei Cheng, Haifeng Chen

arXiv:2502.11418v1 事件类型: 新摘要: 时间序列数据在各种应用中至关重要，包括气候建模、健康监测和金融分析。理解与现实世界时间序列数据相关的情境信息通常对于准确可靠的事件预测至关重要。在本文中，我们介绍了TimeCAP，这是一个时间序列处理框架，创造性地将大型语言模型（LLMs）用作时间序列数据的情境化工具，扩展了它们通常作为预测器的使用方式。TimeCAP 包含两个独立的 LLM 代理：一个生成捕捉时间序列上下文的文本摘要，而另一个则利用这个丰富的摘要做出更加明智的预测。此外，TimeCAP 使用了一个多模态编码器，该编码器与 LLM 代理协同工作，通过输入的上下文示例相互增强，从而提高预测性能。在现实世界数据集上的实验结果表明，TimeCAP 在时间序列事件预测方面的表现优于最先进的方法，包括使用 LLM 作为预测器的方法，平均 F1 分数提高了 28.75%。

发布时间: 2/18/2025

查看原文

模仿熟悉之事：在LLM工具学习系统中进行信息窃取攻击的动态命令生成

作者: Ziyou Jiang, Mingyang Li, Guowei Yang, Junjie Wang, Yuekai Huang, Zhiyuan Chang, Qing Wang

arXiv:2502.11358v1 宣告类型: 新摘要: 信息盗取攻击对大型语言模型（LLM）工具学习系统构成了显著的风险。对手可以通过被控制的工具注入恶意命令，操控LLM将敏感信息发送到这些工具中，从而导致潜在的隐私泄露。然而，现有的攻击方法是黑盒导向的，并且依赖于静态命令，无法灵活适应用户查询和工具调用链的变化。这使得恶意命令更容易被LLM检测到，导致攻击失败。在这篇论文中，我们提出了AutoCMD，一种针对LLM工具学习系统的动态攻击命令生成方法。受到模仿熟悉事物的概念启发，AutoCMD能够通过在开源系统上进行学习并用目标系统示例进行强化，来推断工具链中上游工具利用的信息，从而生成更具针对性的盗取信息的命令。评估结果显示，AutoCMD在信息盗取的成功率（$ASR_{Theft}$）上比基线方法高出13.2%，并且可以普遍应用于新的工具学习系统以揭示其信息泄露的风险。我们还设计了四种防御方法，以有效地保护工具学习系统免受此类攻击。

发布时间: 2/18/2025

查看原文

Explorer：面向多模态Web代理的探索驱动网页轨迹合成规模化方法

作者: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah

arXiv:2502.11357v1 通报类型: 新摘要: 近期在大型多模态模型（LMMs）方面的成功激发了自主完成复杂网络任务代理的 promising 应用。虽然开源 LMM 代理在离线评估基准上取得了显著进步，但在更现实的在线环境中，其性能仍远低于人类水平。一个关键瓶颈是缺乏跨各个领域的多样性和大规模轨迹级数据集，这些数据集的收集成本高昂。在本文中，我们通过开发可扩展的配方来应对这一挑战，以合成迄今为止规模最大、最多样化的轨迹级数据集，包含超过 94,000 条成功的多模态网络轨迹，涵盖 49,000 个唯一 URL、720,000 张截图以及 3300 万网络元素。特别地，我们利用广泛的网络探索与细化来获取多样化的任务意图。平均每条成功轨迹的成本为 28 美分，使其对研究社区中的各种用户来说都是可负担的。利用该数据集，我们训练了一个多模态网络代理 Explorer，并在 Mind2Web-Live、Multimodal-Mind2Web 和 MiniWob++ 等离线和在线网络代理基准测试中展示了优异的表现。此外，我们的实验突出了数据规模是提高网络代理能力的关键驱动力。我们希望这项研究能够让基于 LMM 的代理研究在更大规模上更具可访问性。

发布时间: 2/18/2025

查看原文