LLM2D

arXiv 论文列表

作者: Hao Ma, Tianyi Hu, Zhiqiang Pu, Boyin Liu, Xiaolin Ai, Yanyan Liang, Min Chen
强化学习 (RL) 已成为微调大型语言模型 (LLM) 以适应特定任务的关键技术。然而,现有的 RL 微调方法主要依赖于 PPO 及其变体。尽管这些算法在一般的 RL 设置中是有效的,但它们在应用于 LLMs 的微调时,往往表现出次优性能,并容易出现分布崩溃问题。本文提出了 CORY,将 LLMs 的 RL 微调扩展到一个顺序协作多智能体强化学习框架,以利用多智能体系统固有的协同进化和涌现能力。在 CORY 中,待微调的 LLM 最初被复制成两个自主代理:先锋和观察者。先锋根据查询生成响应,而观察者则使用查询和先锋的响应生成响应。这两个代理一起接受训练。在训练过程中,代理定期交换角色,促进它们之间的合作和协同进化。实验通过在 IMDB 评论和 GSM8K 数据集上分别使用主观和客观奖励函数,对 GPT-2 和 Llama-2 进行微调,评估了 CORY 的性能。结果表明,CORY 在策略最优性、抗分布崩溃能力和训练鲁棒性方面优于 PPO,从而突出了其作为一种优越方法在现实世界应用中改进 LLMs 的潜力。
发布时间: 10/10/2024
查看原文
作者: Saad Attieh, Nguyen Dang, Christopher Jefferson, Ian Miguel, Peter Nightingale
局部搜索是解决组合优化问题的常用方法。我们关注的是通用局部搜索求解器,它们接受约束模型作为输入,约束模型是对问题的声明式描述,包含一组决策变量和一组约束。现有方法通常以独立于求解器的约束建模语言(如 MiniZinc)编写的模型作为输入。本文描述的 Athanor 求解器与之不同,它从抽象约束规范语言 Essence 中对问题的规范开始,Essence 支持一组丰富的抽象类型,允许在不承诺低级建模决策的情况下描述问题。从 Essence 出发的好处是,可以利用简洁、抽象的规范中显现的结构自动生成高质量的邻域,从而避免在等效约束模型中识别该结构的困难任务。基于从高级类型派生的邻域和直接在这些类型上搜索的扩展性的双重优势,我们的实证结果表明,在实践中相对于现有的解决方案方法具有很强的性能。
发布时间: 10/10/2024
查看原文
在随机部分可观察域中执行任务以完成任务是人工智能中的一个重要问题,通常被表述为基于目标的 POMDP。基于目标的 POMDP 可以使用 RTDP-BEL 算法来解决,该算法通过从初始信念到目标运行正向轨迹来运行。这些轨迹可以由启发式方法引导,更准确的启发式方法可以导致显著更快的收敛。在本文中,我们开发了一种利用领域模型结构化表示的启发式函数。我们在一个松弛的空间中计算一个计划来实现目标,同时考虑到信息的价值以及随机效应。我们提供的实验表明,虽然我们的启发式方法计算速度较慢,但在收敛之前它需要的轨迹数量要少一个数量级。总的来说,它因此加速了 RTDP-BEL,特别是在需要大量信息收集的问题中。
发布时间: 10/10/2024
查看原文
作者: Xander Wilcke, Rick Mourits, Auke Rijpma, Richard Zijdeman
大规模异构知识以知识图谱的形式公开可用,这些知识图谱通常将以前从未关联在一起的多个数据源链接起来,从而使学者能够回答许多新的研究问题。然而,人们往往事先不知道数据能回答哪些问题,这可能导致许多有趣和新颖的见解无法被发现。为了支持学者在这一科学工作流程中,我们提出了一种用于自下而上发现知识图谱中广义多模态图模式的随时算法。每个模式都是具有(数据)类型变量、常量和/或值模式的二元语句的合取。发现后,这些模式将被转换为 SPARQL 查询,并与元数据和来源信息一起在交互式分面浏览器中呈现,使学者能够探索、分析和共享查询。我们借助人文学科领域的专家,从用户视角评估了我们的方法。
发布时间: 10/10/2024
查看原文
作者: David Lobo, V\'ictor L\'opez-Marchante, Jes\'us Medina
本文利用模糊关系方程 (FRE) 与概念格之间的关系,提出了一种在不丢失信息的情况下简化 FRE 的方法。具体而言,本文考虑了属性导向和对象导向概念格中的属性约简理论,以提出一种检测冗余方程的机制。作为第一个结果,可解 FRE 的完整解集的计算被简化了。此外,我们还将介绍一种新方法,用于计算与具有不确定性/不精确数据的(真实)数据集相关的不可解 FRE 的近似解。
发布时间: 10/10/2024
查看原文
作者: Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi
越来越多的工作使用大型语言模型 (LLM) 作为代理来编排工作流程并在需要规划和多步骤推理的领域中做出决策。因此,必须评估 LLM 在规划所需的核心技能方面的表现。在这项工作中,我们提出了 ACPBench,一个用于评估规划领域中推理任务的基准。该基准包含 13 个规划领域中的 7 个推理任务。该集合是从用形式语言描述的规划领域构建的。这使我们能够综合出在许多任务和领域中具有可证明正确解的问题。此外,它让我们可以在没有额外人工干预的情况下实现规模化,即可以自动创建更多问题。我们对 22 个开源和前沿 LLM 的广泛评估突出了 LLM 在推理能力方面的巨大差距。在这些任务中,表现最佳的前沿 LLM 之一 GPT-4o 的平均准确率低至 52.50%。ACPBench 集合可在 https://ibm.github.io/ACPBench 获取。
发布时间: 10/10/2024
查看原文
作者: Martin Klissarov, Devon Hjelm, Alexander Toshev, Bogdan Mazoure
大型预训练模型在跨模态推理和规划任务中展现出越来越好的性能,为利用它们解决复杂的顺序决策问题提供了可能性。本文研究了大型语言模型(LLM)在多种交互式领域中进行强化学习(RL)的能力。我们评估了它们生成决策策略的能力,无论是直接通过生成动作,还是间接地,首先通过生成奖励模型来训练具有 RL 的智能体。我们的结果表明,即使没有特定任务的微调,LLM 也擅长奖励建模。特别是,通过人工智能(AI)反馈来构建奖励,产生了最通用的方法,并且可以通过改进信用分配和探索来提高性能。最后,在具有不熟悉动态的环境中,我们探索了如何使用合成数据微调 LLM 可以显著提高它们的奖励建模能力,同时减轻灾难性遗忘,进一步拓宽它们在顺序决策任务中的实用性。
发布时间: 10/10/2024
查看原文
作者: Jeongeun Park, Sungjoon Choi, Sangdoo Yun
大型语言模型 (LLM) 的最新进展极大地增强了它们生成自然且与上下文相关的文本的能力,使 AI 交互更加人性化。然而,生成和理解互动式的人类动作,即两个人进行协调的动作,仍然是一个挑战,因为对这些协调互动进行建模的复杂性。此外,需要一个通用的模型来处理各种交互场景,例如遵循用户指令或适应其分配角色的聊天系统,同时调整交互动态。为了解决这个问题,我们引入了 VIM,即通用交互动作语言模型,它集成了语言和动作模式,以有效地理解、生成和控制多轮对话环境中的交互动作。为了解决多轮交互动作数据稀缺的问题,我们引入了一个合成数据集 INERT-MT2,我们利用预训练模型来创建具有交互动作的各种指令数据集。我们的方法首先训练一个动作标记器,将交互动作编码为残差离散标记。在预训练阶段,模型学习将动作和文本表示与这些离散标记对齐。在指令微调阶段,VIM 使用 INTER-MT2 数据集适应多轮对话。我们评估了我们的方法在动作相关任务、动作到文本、文本到动作、反应生成、动作编辑和关于动作序列的推理方面的通用性。结果突出了所提方法在处理复杂交互动作合成方面的通用性和有效性。
发布时间: 10/10/2024
查看原文
作者: Jared Moore, Yejin Choi, Sydney Levine
在不同人对不同事物有不同价值观的情况下,如何找到最佳折衷方案?在行为科学、社会科学、决策理论、哲学和人工智能发展等领域,最普遍接受的答案是:将不同选项的效用加总,选择总和最大的方案。这种“功利主义”方法似乎是显而易见、理论中立的解决问题的方法。但有一个重要且经常被忽视的替代方法:“契约主义”方法,它主张采用协议驱动的方式来做出决定。值得注意的是,目前还没有研究提供直接比较这两种方法的直观合理性的实证证据。在本论文中,我们系统地探索了每种算法(“功利主义总和”和契约主义“纳什乘积”)提出的方案,使用了一种将这些算法应用于社会决策背景下群体间偏好聚合的范式。尽管迄今为止,价值聚合的主流方法是功利主义,但我们发现人们强烈偏好契约主义算法推荐的聚合结果。最后,我们将大型语言模型 (LLM) 的判断与我们(人类)参与者的判断进行比较,发现模型与人类偏好之间存在重要的不一致。
发布时间: 10/10/2024
查看原文
作者: Helena L\"ofstr\"om, Tuwe L\"ofstr\"om, Johan Hallberg Szabadvary
本文旨在填补可解释人工智能领域的一个重要空白:解释模型解释中的认知不确定性。虽然现有方法主要关注解释预测,其中一些方法包含不确定性,但它们未能提供关于如何减少这些预测中固有不确定性的指导。为了克服这一挑战,我们引入了专门针对认知不确定性的新型解释。这些解释包括确保解释,它突出显示可以减少不确定性的特征修改,以及不确定性解释的分类 - 反潜在、半潜在和超潜在,它们探索了替代场景。我们的工作强调,认知不确定性为解释质量增添了至关重要的维度,要求评估不仅基于预测概率,还基于不确定性降低。我们引入了一个新的指标,确保排名,旨在通过平衡不确定性、概率和竞争性替代解释之间的权衡,帮助用户识别最可靠的解释。此外,我们扩展了校准解释方法,加入了可视化特征值变化如何影响认知不确定性的工具。此增强功能提供了对模型行为的更深入见解,促进了可解释性的提高,并在涉及不确定预测的场景中建立了适当的信任。
发布时间: 10/10/2024
查看原文