arXiv 论文列表

单模型能掌握多轮对话和工具使用吗？CoALM：一个统一的对话型代理语言模型

作者: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-T\"ur, Gokhan Tur

arXiv:2502.08820v2 公告类型：替换摘要：具有API调用能力的大语言模型（LLMs）构建了有效语言代理（LA），同时也在传统的任务导向对话（TOD）范式上带来了革命性的变化。然而，现有的方法面临一个关键的困境：TOD系统往往仅在有限的目标API集上进行训练，当与新的服务接口时需要新的数据来保持质量，而LA则没有被训练以在多轮对话中保持用户意图。因为有效对话代理需要既具备强大的多轮管理能力，又具备高级的功能调用能力，我们在这三个方面流行的基准上评估了这些技能：MultiWOZ 2.4（TOD）、BFCL V3（LA）和API-Bank（LA）。我们的分析揭示了专门的方法在某一领域表现出色但在另一领域却表现不佳。为了弥合这一鸿沟，我们引入了CoALM（对话代理语言模型），这是一种结合了对话和代理能力的统一方法。我们创建了CoALM-IT，这是一个精心构建的多任务数据集，将多轮ReAct推理与复杂的API使用交织在一起。使用CoALM-IT，我们训练了三个模型CoALM 8B、CoALM 70B和CoALM 405B，它们在三个基准测试上均超过了顶级领域特定模型，包括GPT-4o。这表明了单个模型方法在TOD和LA两个领域都是可行的，并为对话代理设定了新的标准。

发布时间: 2/19/2025

查看原文

LLMs可以轻松地从示范中学习推理，结构而不是内容才是关键！

作者: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Eric Tang, Sumanth Hegde, Kourosh Hakhamaneshi, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

arXiv:2502.07374v2 宣告类型：替换摘要：大型推理模型（LRMs）通过长链推理（Long CoT，Long Chain-of-Thought）来解决复杂的推理问题，Long CoT 包括反思、回溯和自我验证。然而，引发 Long CoT 的训练技术和数据要求仍然不清楚。在这项工作中，我们发现一个大型语言模型（LLM）可以通过数据高效监督微调（SFT）和参数高效低秩适应（LoRA）有效地学习 Long CoT 推理。仅通过 17,000 个长 CoT 训练样本，Qwen2.5-32B-Instruct 模型在各种数学和编码基准测试中取得了显著改进，包括在 AIME 2024 中达到 56.7%（+40.0%）和在 LiveCodeBench 中达到 57.0%（+8.1%），与专有的 o1-preview 模型的分数 44.6% 和 59.1% 相匹敌。更重要的是，我们发现 Long CoT 的结构对学习过程至关重要，而单个推理步骤的内容影响甚微。影响内容的扰动，如在错误样本上训练或移除推理关键词，对性能几乎没有影响。相比之下，破坏 Long CoT 逻辑一致性的结构修改，如打乱或删除推理步骤，显著降低了准确性。例如，训练于包含错误答案的 Long CoT 样本的模型，其准确率相较于完全正确的样本仅低 3.2%。这些见解加深了我们对如何在 LLM 中引发推理能力的理解，并突显了高效训练下一代推理模型的关键考虑因素。这是我们之前发布的 Sky-T1-32B-Preview 模型的学术论文。代码可在 https://github.com/NovaSky-AI/SkyThought 获取。

发布时间: 2/19/2025

查看原文

前沿AI风险管理框架：缩小当前AI实践与成熟风险管理之间的差距

作者: Simeon Campos, Henry Papadatos, Fabien Roger, Chlo\'e Touzet, Malcolm Murray, Otter Quarks

arXiv:2502.06656v2 宣布类型: 重置摘要：最近强大的AI系统的开发凸显了AI产业中稳健的风险管理体系的必要性。尽管公司已经开始实施安全框架，但当前的方法往往缺乏其他高风险行业所具备的系统严谨性。本文提出了一种全面的风险管理体系，以填补这一空白，该体系通过整合既定的风险管理原则与新兴的AI特定实践进行了融合。该框架包含四个关键组成部分：（1）风险识别（通过文献回顾、开放式蓝队测试和风险管理建模），（2）使用定量指标和明确定义的阈值进行风险分析和评估，（3）通过缓解措施（如隔离、部署控制和保障程序）进行风险管理处理，以及（4）风险管理治理，建立明确的组织结构和问责制度。借鉴成熟行业如航空或核能的最佳做法，同时考虑到AI的独特挑战，该框架为AI开发者提供了实施稳健风险管理的实际指南。本文详细说明了每个组成部分在AI系统生命周期（从规划到部署）中的实施方式，并强调了在最终训练运行之前进行风险管理工作的必要性和可行性，以最大限度地减少与之相关的负担。

发布时间: 2/19/2025

查看原文

AutoAgent：一个完全自动化和零代码的LLM代理框架

作者: Jiabin Tang, Tianyu Fan, Chao Huang

arXiv:2502.05957v2 宣告类型：替换摘要：大型语言模型（LLM）代理展示了在任务自动化和智能决策方面卓越的能力，推动了诸如LangChain和AutoGen等代理开发框架的广泛应用。然而，这些框架主要服务于具有深厚技术专长的开发者，这在很大程度上限制了全球仅占0.03%的人口由于缺乏必要的编程技能而无法充分利用这些框架。这一显著的可访问性差距提出了一个基础性问题：我们是否可以让每个人都仅使用自然语言就能构建自己的LLM代理，而不考虑其技术背景？为解决这一挑战，我们引入了AutoAgent——一个完全自动化且高度自我发展的框架，使用户能够仅通过自然语言便可创建和部署LLM代理。作为自主导航操作系统，AutoAgent 包含四个关键组件：i) 代理系统工具包，ii) 基于LLM的操作型引擎，iii) 自我管理文件系统，以及 iv) 自我游戏代理定制模块。这款轻量且强大的系统允许在无需编码要求或手动干预的情况下，高效且动态地创建和修改工具、代理和工作流。除了其无代码代理开发能力之外，AutoAgent 还是一个多功能的多代理系统，适用于通用人工智能助手。在GAIA基准上的全面评估表明，AutoAgent 在通用多代理任务中表现出色，超过了现有最先进的方法。此外，AutoAgent 在检索增强生成（RAG）相关能力方面的表现也明显优于许多其他基于LLM的解决方案。

发布时间: 2/19/2025

查看原文

SymAgent：一种用于知识图谱复杂推理的神经符号自学习代理框架

作者: Ben Liu, Jihai Zhang, Fangquan Lin, Cheng Yang, Min Peng, Wotao Yin

arXiv:2502.03283v2 公告类型: 替换摘要：近年来的研究表明，大型语言模型（LLMs）在解决复杂推理问题时容易产生幻觉，导致错误的结果。为了解决这一问题，研究人员通过引入知识图谱（KGs）来提高LLMs的推理能力。然而，现有的方法面临两个限制：1）它们通常假设所有问题的答案都包含在KGs中，忽视了KGs的不完整性问题；2）它们将KGs视为静态存储库，并忽视了KGs内在的隐式逻辑推理结构。在本文中，我们介绍了SymAgent，一种创新性的神经符号代理框架，实现了KGs和LLMs之间的协作增强。我们将KGs概念化为动态环境，并将复杂推理任务转化为多步互动过程，使KGs能够深入参与推理过程。SymAgent由两个模块组成：Agent-Planner和Agent-Executor。Agent-Planner利用LLMs的归纳推理能力从KGs中提取象征性规则，指导有效的问题分解。Agent-Executor自主调用预定义的动作工具，从KGs和外部文档中整合信息，解决KG不完整性的问题。此外，我们设计了一个自我学习框架，包含在线探索和离线迭代策略更新阶段，使代理能够自动合成推理轨迹并提高性能。实验结果表明，使用较弱的LLM后端（即7B系列）的SymAgent相较于各种强基线模型，具有更好的或可比的性能。进一步的分析表明，我们的代理能够识别缺失的三元组，促进自动更新KGs。

发布时间: 2/19/2025

查看原文

PPT智能助手：超越文本生成幻灯片的 presentations 生成与评估

作者: Hao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Weixiang Zhou, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun

arXiv:2501.03936v2 Announce Type: replace 摘要: 从文档自动生成演示文稿是一项具有挑战性的任务，要求兼顾内容质量、视觉吸引力和结构连贯性。现有方法主要专注于孤立地提高和评估内容质量，忽略了视觉吸引力和结构连贯性，这限制了它们的实际适用性。为了解决这些限制，我们提出了PPTAgent，该方法通过借鉴人类工作流程的两阶段编辑方法，全面改进演示文稿的生成。PPTAgent 首先分析参考演示文稿以提取幻灯片级别的功能类型和内容结构，然后制定大纲，并根据选定的参考幻灯片迭代生成编辑动作，以创建新的幻灯片。为了全面评估生成演示文稿的质量，我们进一步引入了PPTEval，这是一个评估框架，从内容、设计和连贯性三个维度评估演示文稿。结果表明，PPTAgent 在所有三个维度上显著优于现有自动演示文稿生成方法。

发布时间: 2/19/2025

查看原文

A3：移动GUI代理的Android代理竞技场

作者: Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guangyi Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li

arXiv:2501.01149v2 通告类型: 替换摘要：近年来，随着大型语言模型（LLMs）领域取得了显著进展，人工智能代理变得越来越普遍。移动GUI代理是人工智能代理的一个子集，设计用于自主在移动设备上执行任务。尽管有许多研究引入了代理、数据集和基准以推进移动GUI代理研究，但目前许多现有的数据集关注静态窗口评估，并未能提供一个全面的平台来评估实验在真实世界、自然环境下的表现。为了解决这一差距，我们提出了Android Agent Arena（A3），这是一个新的评估平台。与现有的自然环境系统相比，A3提供了以下特点：（1）实际且具有代表性的任务，如实时在线信息检索和操作指令；（2）更大的、更灵活的动作空间，使任何数据集训练的代理都能相容；以及（3）基于LLM的自动化企业级别评估流程。A3包含21个广泛使用的通用第三方应用程序和201个代表常见用户场景的任务，为在真实世界情况下评估移动GUI代理提供了一个坚实的基座，并提供了一个新的自主评估过程，以减少人力和编程知识的需求。该项目可在https://yuxiangchai.github.io/Android-Agent-Arena/找到。

发布时间: 2/19/2025

查看原文

AI与科学的桥梁：大规模文献分析对AI4Science的影响

作者: Yutong Xie, Yijun Pan, Hua Xu, Qiaozhu Mei

arXiv:2412.09628v2 宣告类型: 替换摘要：人工智能已被证明是推动各学科科学研究发展的变革性工具。然而，人工智能与科学界之间仍存在显著差距，限制了人工智能方法在广泛科学发现中的全部潜力。现有的努力往往依赖于文献小样本的定性分析，这仅提供了对更广泛的人工智能与科学结合（AI4Science）景观有限的视角。在这项工作中，我们对人工智能与科学文献进行了大规模分析，首先使用大语言模型识别来自顶尖科学和人工智能会议的论文中的科学问题和人工智能方法。利用这一新数据集，我们定量地突出了人工智能方法与科学问题之间的关键差异，揭示了在各个科学学科中加深人工智能集成的重大机会。此外，我们从预测链接的角度探索了促进人工智能与科学界合作的潜力和挑战。我们的发现和工具旨在促进更具影响力的跨学科合作，并通过更深入和广泛的集成加速科学研究。我们的代码和数据集可在以下网址获取：https://github.com/charles-pyj/Bridging-AI-and-Science。

发布时间: 2/19/2025

查看原文

GAMA：生成型代理多智能体自形式化

作者: Agnieszka Mensfelt, Kostas Stathis, Vince Trencsenyi

arXiv:2412.08805v2 公告类型: 替换摘要：多智能体仿真促进了自然和人工智能体之间交互的探索。然而，建模现实世界场景并开发仿真往往需要大量的专业知识和努力。为了简化这一过程，我们提出了一种框架，该框架利用大型语言模型（LLMs）增强智能体，通过博弈论形式化方法实现交互场景的自动形式化。智能体将自然语言交互描述翻译成可执行的逻辑程序，这些程序定义了每个游戏的规则，并通过求解器验证其语法正确性。然后进行锦标赛仿真以测试生成的游戏规则和策略的功能。在锦标赛之后，如果可用真实反馈支付矩阵，将执行精确语义验证。我们在110个自然语言描述上评估了我们的方法，这些描述例证了五个两人同时行动博弈的场景，Claude 3.5 Sonnet生成的游戏规则在语法上正确率达到100%，语义上正确率达到76.5%，而GPT-4o在语法上正确率达到99.82%，语义上正确率达到77%。此外，我们展示了在自动形式化游戏策略方面的高语义正确性。总体而言，结果突显了自动形式化在利用LLMs生成决策智能体的形式化推理模块方面的潜力。

发布时间: 2/19/2025

查看原文

SmartAgent：拟人化智能代理的用户思维链技术在虚拟网络世界中应用

作者: Jiaqi Zhang, Chen Gao, Liyuan Zhang, Yong Li, Hongzhi Yin

arXiv:2412.07472v3 声明类型: 替换摘要: 基于大型视觉语言模型（LVLM）的多模态感知和推理能力的 embodiment 代理的最近进展，在自主与现实或网络世界交互方面表现出色，帮助人们在复杂环境中做出智能决策。然而，当前的工作通常通过金标准行动轨迹或理想的任务导向解决方案来优化，以达到最终目标。这种范式考虑了有限的用户导向因素，这可能是它们在广泛个人助理应用中性能下降的原因。为了解决这个问题，我们提出了 Chain-of-User-Thought（COUT），这是一种新颖的 embodiment 推理范式，从基本的动作思考到明确和隐含的个性化偏好思考，将个性化因素融入自主代理的学习中。为了解决 COUT，我们引入了 SmartAgent，这是一种感知网络环境并推理个性化要求的代理框架，包括：1) 与 GUI 交互以访问项目池，2) 生成由先前动作暗示的用户的明确要求，3) 推荐物品以满足用户的隐含要求。为了展示 SmartAgent 的能力，我们还创建了一个全新的数据集 SmartSpot，提供了全面的、涉及个性化动作的环境。据我们所知，我们的工作是首次对 COUT 过程进行建模，作为迈向 embodiment 个性化代理学习的初步尝试。我们在 SmartSpot 上进行的广泛实验阐明了 SmartAgent 在一系列 embodiment 和个性化子任务中的功能。一旦论文被通知，我们将通过https://github.com/tsinghua-fib-lab/SmartAgent 释放代码和数据。

发布时间: 2/19/2025

查看原文