arXiv 论文列表

作者: Jakob Schoeffer, Johannes Jakubik, Michael Voessing, Niklas Kuehl, Gerhard Satzger

arXiv:2304.08804v4 宣告类型: replace-cross 摘要：在AI辅助决策中，将人类置于循环中的主要承诺之一是他们应该能够通过覆盖AI系统的错误建议来补充AI系统。然而，在实践中，我们经常看到人类无法评估AI建议的正确性，结果导致坚持错误的建议或覆盖正确的建议。依赖AI建议的不同方式对决策质量产生即时但独特的直接影响。不幸的是，在当前关于AI辅助决策的研究文献中，依赖性和决策质量通常被错误地混为一谈。在这项工作中，我们区分并形式化了依赖性和决策质量之间的关系，并阐明了人类与AI互补性可以实现的条件。为了说明依赖性和决策质量之间的关系，我们提出了一个可视化的框架，并展示了它在解释实证发现（包括解释等干预措施的影响）方面的用途。总体而言，我们的研究表明，在AI辅助决策中区分依赖行为和决策质量的重要性。

发布时间: 2/5/2025

查看原文

用少的更多——在基于大型语言模型的系统中实现路由策略：一篇扩展调研

作者: Clovis Varangot-Reille, Christophe Bouvard, Antoine Gourru, Mathieu Ciancone, Marion Schaeffer, Fran\c{c}ois Jacquenet

arXiv:2502.00409v2 宣布类型:替换摘要:基于大型语言模型(LLM)的系统，即包括LLM作为核心组件的相互连接的元素(例如，对话代理)，通常是单一、静态的架构，依赖于单一的LLM来处理所有用户查询。然而，它们往往需要不同的预处理策略、不同的推理层次或知识。通用的大规模语言模型(例如，GPT-4)，训练于非常大的多主题语料库上，可以在多种任务中表现良好。它们需要显著的财务、能源和硬件资源，这可能并不适用于基本任务。这意味着对于给定的查询可能需要投入不必要的成本。为解决这一问题，路由机制将用户查询路由到最合适的组件，如较小的LLM或特定主题的专家。这种方法可能在提高响应质量的同时减少成本。路由机制可以扩展到对话代理架构的其他组件，例如最佳嵌入策略的选择。本文探讨了将路由机制整合到基于LLM的系统中的关键考虑因素，重点在于资源管理、成本定义和策略选择。我们的主要贡献包括对问题的正式化表述，对现有方法的新颖分类，强调相关性和资源效率，以及这些策略与行业实践的比较分析。最后，我们确定了关键挑战和未来研究的方向。

发布时间: 2/5/2025

查看原文

用大语言模型提取问题结构以优化SAT局部搜索

作者: Andr\'e Schidler, Stefan Szeider

arXiv:2501.14630v2 宣告类型: 修改摘要: 局部搜索预处理通过提供高质量的起始点使冲突驱动子句学习（CDCL）求解器速度更快，现代SAT求解器已经将这种技术融入到它们的预处理步骤中。然而，这些工具依赖于基本策略，这些策略未能捕捉问题中的结构性模式。我们提出了一种方法，该方法利用大型语言模型（LLMs）分析基于Python的编码代码。这揭示了问题转换为SAT隐藏的结构性模式。该方法自动生成专门的局部搜索算法，寻找这些模式并使用它们创建强大的初始分配。这适用于同一编码类型下的任何问题实例。我们的测试表明取得了鼓舞人心的结果，与基准预处理系统相比，求解时间更快。

发布时间: 2/5/2025

查看原文

MASTER：一个专用LLM的多代理系统与蒙特卡洛树搜索

作者: Bingzheng Gan, Yufan Zhao, Tianyi Zhang, Jing Huang, Yusu Li, Shu Xian Teo, Changwang Zhang, Wei Shi

arXiv:2501.14304v2 宣告类型: 替换摘要: 大型语言模型（LLM）越来越多地被探索用于问题解决任务。然而，人们往往对其战略规划能力持怀疑态度。近期的研究将蒙特卡洛树搜索（MCTS）算法融入其中，以增强LLM的规划能力。尽管具有潜力，但MCTS依赖于广泛的采样仿真来近似真实的奖励分布，这带来了两个主要问题。首先，MCTS在围棋等任务中效果良好，因为在这些任务中，仿真结果可以提供客观的奖励（例如，胜利得1分，失败得0分）。然而，对于问答等任务，仿真的结果只是问题的答案，无法在没有真实答案的情况下提供客观的奖励。其次，获得统计上显著的奖励估计通常需要超过30次仿真的样本量，导致了过多的令牌使用和时间消耗。为了应对这些挑战，我们提出了多代理系统，该系统利用了LLM专门化的MCTS，实现了战术执行和推理（MASTER）的新框架。该系统根据任务复杂性自主调整代理数量，并确保它们之间的集中通信。在各种任务上的全面实验表明，我们提出的框架非常有效。它在HotpotQA上达到了76%的准确率，在WebShop上达到了80%，在这些数据集上设定了新的最先进的性能。

发布时间: 2/5/2025

查看原文

自主检索增强生成：自主RAG综述

作者: Aditi Singh, Abul Ehtesham, Saket Kumar, Tala Talaei Khoei

arXiv:2501.09136v3 宣告类型: 重置摘要: 大型语言模型（LLMs）通过实现类人的文本生成和自然语言理解，彻底改变了人工智能（AI）。然而，它们依赖于静态训练数据的局限性限制了其对动态、实时查询的响应能力，导致输出过时或不准确。检索增强生成（RAG）作为一种解决方案涌现出来，通过集成实时数据检索来提升LLMs，提供上下文相关且最新的响应。尽管具有潜力，但传统的RAG系统受限于静态的工作流程，缺乏用于多步推理和复杂任务管理所需的适应性。自主检索增强生成（Agentic RAG）超越了这些限制，将自主人工智能代理嵌入到RAG管道中。这些代理利用自主设计模式的反思、规划、工具使用和多智能体协作，动态管理检索策略，迭代提高上下文理解，并根据复杂任务要求调整工作流程。这种集成使Agentic RAG系统能够在各种应用中提供无与伦比的灵活性、可扩展性和上下文感知能力。本综述全面探讨了Agentic RAG，从其基础原则和RAG范式的演变开始。它提供了Agentic RAG架构的详细分类，突出了医疗保健、金融和教育等行业中的关键应用，并探讨了实际实施策略。此外，它还探讨了在这些系统中扩展的挑战、确保伦理决策以及优化实际应用性能的方法，同时提供了关于实现Agentic RAG框架和工具的详细见解。

发布时间: 2/5/2025

查看原文

LMAct：长多模态示范的在上下文模仿学习基准

作者: Anian Ruoss, Fabio Pardo, Harris Chan, Bonnie Li, Volodymyr Mnih, Tim Genewein

arXiv:2412.01441v2 提交类型: 替换摘要: 在本文中，我们提出了一项基准测试，以验证当今最前沿模型在极长上下文情况（多达一百万个标记）下的多模态决策能力，并探讨这些模型是否可以从大量专家示范中学到东西。我们评估了Claude 3.5 Sonnet、Gemini 1.5 Flash、Gemini 1.5 Pro、Gemini 2.0 Flash Experimental、GPT-4o、o1-mini、o1-preview和o1作为策略在一系列简单的交互式决策任务中的表现：玩井字游戏、象棋和Atari游戏、在网格世界中导航、解决填字游戏以及控制模拟猎豹。我们研究了在上下文中不同数量的专家示范的效果——从没有示范到512个完整示范。在我们的任务中，模型很少能够完全达到专家水平，而且很多时候，提供更多示范几乎没有效果。在一些任务上，一些模型随着更多示范的提供而稳定地改进。我们研究了将观察编码为文本或图像的影响，并探讨了解释链提示的影响。为了帮助量化其他方法和未来创新的影响，我们开源了我们的基准测试，该基准测试涵盖了零样本、少样本和多样本的统一评估。

发布时间: 2/5/2025

查看原文

进程监督导向的策略优化代码生成

作者: Ning Dai, Zheng Wu, Renjie Zheng, Ziyun Wei, Wenlei Shi, Xing Jin, Guanlin Liu, Chen Dun, Liang Huang, Lin Yan

arXiv:2410.17621v2 公告类型：替换摘要：带有单元测试反馈的强化学习（RL）增强了大语言模型（LLMs）的代码生成，但依赖于仅在完成代码评估后提供的稀疏奖励，这限制了学习效率和逐步改进。当生成的代码未能通过所有单元测试时，就没有收到学习信号，阻碍了复杂任务的进展。为了解决这一问题，我们提出了一种过程奖励模型（PRM），该模型在生成过程中提供密集的、逐行的代码正确性反馈，模仿人类的代码改进，并提供即时指导。我们探索了用于训练PRMs的各种策略及其与RL框架的整合方式，发现将PRMs用作密集奖励以及用于价值函数初始化能够显著提升性能。我们的实验结果还突显了PRMs在增强RL驱动的代码生成方面的有效性，尤其是在长时序场景中。

发布时间: 2/5/2025

查看原文

TransBox: EL++-闭包本体嵌入

作者: Hui Yang, Jiaoyan Chen, Uli Sattler

arXiv:2410.14571v2 通告类型: 修改摘要: OWL（Web 资源对象语言）本体能够以标准知识图谱的形式表示关系事实和类型事实，并以描述逻辑（DL）公理的形式表示复杂领域的知识，在医疗保健和生物信息学等领域得到了广泛应用。借鉴知识图嵌入的成功经验，嵌入OWL本体近年来引起了广泛关注。当前的方法主要集中在学习原子概念和角色的嵌入，通过特别设计的评分函数来进行经过标准化的公理评估。然而，它们往往忽略了复杂概念的嵌入，使得在处理更为复杂的公理时难以进行推断。这一限制降低了它们在语义学习和本体介导查询回答等高级推理任务中的有效性。在本文中，我们提出了EL++-闭合本体嵌入，能够通过组合来表示DL中的任何逻辑表达式。此外，我们开发了TransBox，这是一种有效的EL++-闭合本体嵌入方法，能够处理一对一、一对多和多对多关系。我们的广泛实验表明，TransBox在预测复杂公理方面通常能够达到各种现实世界数据集中的最先进的性能。

发布时间: 2/5/2025

查看原文

使用大型语言模型的多目标启发式演化

作者: Shunyu Yao, Fei Liu, Xi Lin, Zhichao Lu, Zhenkun Wang, Qingfu Zhang

arXiv:2409.16867v2 宣告类型：替换摘要：启发式算法常用于解决各种搜索和优化问题。设计启发式算法通常需要结合领域知识进行繁琐的手动构建。最近的研究将大型语言模型（LLMs）引入自动启发式搜索中，利用它们强大的语言和编码能力。然而，现有研究主要以在目标问题上的最优性能为主要目标，忽视了诸如效率和扩展性等在实践中至关重要的其他标准。为解决这一问题，我们提出将启发式搜索建模为一个多目标优化问题，并考虑引入除最优性能之外的额外实际标准。由于搜索空间的复杂性，传统多目标优化方法难以有效处理基于LLMs的多目标启发式搜索。我们提出了第一个基于LLMs的多目标启发式搜索框架——多目标进化启发式（MEoH），该框架以零样本方式集成LLMs，生成能够满足多个设计标准的非支配集启发式算法。我们设计了一种新的支配差异机制，用于有效的种群管理和选择，该机制既考虑了搜索空间中的代码差异，又考虑了目标空间中的支配关系。MEoH 在两个著名的组合优化问题：在线背包问题（BPP）和旅行商问题（TSP）中得到了验证。结果显示，在一次运行中自动生成了多种优质启发式算法，提供了比现有方法更多的权衡选项。同时，在性能上达到了竞争性的或更优的结果，效率提高了10倍。此外，我们还观察到，多目标搜索为启发式算法设计提供了新的洞察，并促使发现了多种多样的启发式算法。

发布时间: 2/5/2025

查看原文

交互工具显著帮助语言模型代理发现安全漏洞

作者: Talor Abramovich, Meet Udeshi, Minghao Shao, Kilian Lieret, Haoran Xi, Kimberly Milner, Sofija Jancheska, John Yang, Carlos E. Jimenez, Farshad Khorrami, Prashanth Krishnamurthy, Brendan Dolan-Gavitt, Muhammad Shafique, Karthik Narasimhan, Ramesh Karri, Ofir Press

arXiv:2409.16165v2 宣告类型: 更新摘要：尽管语言模型（LM）代理在多个领域，包括编程和网络浏览方面展示了增强的性能，但在网络安全领域的成功却有限。我们介绍了EnIGMA，一个用于自主解决Capture The Flag（CTF）挑战的语言模型代理。我们引入了新的工具和界面，以提高代理查找和利用安全漏洞的能力，特别是针对交互式终端程序。这些新颖的交互式代理工具首次使语言模型代理能够运行交互式实用工具，如调试器和服务器连接工具，这些工具对于解决这些挑战至关重要。对四个基准上的390个CTF挑战的实证分析表明，这些新工具和界面大大提高了我们代理的性能，实现了在NYU CTF、Intercode-CTF和CyBench上的最先进的结果。最后，我们分析了数据泄漏，开发了新的方法来量化它，并确定了一种新的现象，我们称其为自语，即模型自动生成虚假观察而无需与环境互动。我们的代码和开发数据集分别可在https://github.com/SWE-agent/SWE-agent/tree/v0.7和https://github.com/NYU-LLM-CTF/NYU_CTF_Bench/tree/main/development找到。

发布时间: 2/5/2025

查看原文