arXiv 论文列表

作者: Zihan Wang, Yaohui Zhu, Gim Hee Lee, Yachun Fan

arXiv:2502.11142v1 介绍类型: 新颖摘要: 视觉-语言导航(VLN)是体感代理的一项基本技能，使它们能够遵循自然语言指令在3D环境中导航。高性能的导航模型需要大量的训练数据，手动标注数据的高成本严重阻碍了这一领域的发展。因此，一些先前的方法将轨迹视频翻译成逐步指令以扩展数据，但这些指令并不很好地与用户简短描述目的地或特定需求的沟通风格匹配。此外，局部导航轨迹忽视了全局上下文和高层次的任务规划。为了解决这些问题，我们提出了一种检索增强生成(RAG)框架NavRAG，用于生成用户需求指令以进行VLN。NavRAG利用大规模语言模型(LLM)构建从全局布局到局部细节的分层场景描述树，然后模拟具有特定需求的多种用户角色以从场景树中检索信息，使用LLM生成多样化的指令。我们对861个场景中的超过200万条导航指令进行了标注，并评估了训练模型的数据质量和导航性能。

发布时间: 2/18/2025

查看原文

基于强化学习方法解决天文随访观测约束资源在线调度问题

作者: Yajie Zhang, Ce Yu, Chao Sun, Jizeng Wei, Junhan Ju, Shanjiang Tang

arXiv:2502.11134v1 宣告类型: 新摘要: 在天文学观测领域，确定望远镜阵列的观测资源分配和规划突发目标（ToOs）的后续观测是天文学科学发现不可或缺的组成部分。由于在线观测设置以及可能影响观测能否进行的时间变化因素众多，这个问题具有很高的计算难度。本文提出了ROARS，一种用于在线天文学资源受限调度的强化学习方法。为了捕捉天文学观测调度的结构，我们将每一份调度表示为有向无环图（DAG），展示了调度中不同观测任务之间的时间依赖关系。深度强化学习被用来学习一个迭代本地重写以逐步提高可行解的策略，直到收敛。由于众多的空间和时间约束导致的高计算复杂性，该方法可以解决从零开始直接获得完整解决方案的挑战。我们基于真实场景开发了一个仿真环境来进行实验，以评估我们提出的调度方法的有效性。实验结果表明，ROARS 超过了5种流行的启发式方法，能够适应各种观测场景，并且能够通过后见之明学习有效的策略。

发布时间: 2/18/2025

查看原文

大型语言模型的层次专家提示：一种首次战胜精英AIStarCraft II的方法

作者: Zongyuan Li, Chang Lu, Xiaojie Xu, Runnan Qi, Yanan Ni, Lumin Jiang, Xiangbei Liu, Xuebo Zhang, Yongchun Fang, Kuihua Huang, Xian Guo

arXiv:2502.11122v1 宣告类型: 新增摘要: 自大语言模型（LLM）的出现以来，LLM 已被广泛应用于写作、翻译和搜索等领域。然而，在处理《星际争霸II》环境中的复杂任务（如决策）方面，基于LLM的方法仍有巨大的潜力待开发。为了应对缺乏相关知识以及在处理不同重要性子任务时控制能力差等问题，我们提出了一种层次专家提示（HEP）方法。我们的方法利用专家级别的战术知识来提高对游戏情况的理解，并通过层次框架提高不同类型任务的处理质量。我们的方法首次击败了TextStarCraft II中最高级别的（精英级）内置代理，并且在其他难度上始终优于基线方法。我们的实验表明，所提出的方法是一种应对复杂决策挑战的实用解决方案。回放视频可以在 https://www.bilibili.com/video/BV1uz42187EF 和 https://youtu.be/dO3PshWLV5M 观看，我们的代码已开源在 https://github.com/luchang1113/HEP-LLM-play-StarCraftII。

发布时间: 2/18/2025

查看原文

OptMATH：一个可扩展的双向数据合成框架用于优化建模

作者: Hongliang Lu, Zhonglin Xie, Yaoyu Wu, Can Ren, Yuxuan Chen, Zaiwen Wen

arXiv:2502.11102v1 宣告类型：新摘要：尽管大规模语言模型（LLMs）取得了快速的发展，但仍然存在一个根本性的挑战：高质量的优化模型数据集的缺乏阻碍了LLMs对自然语言描述（NL）的实际优化问题的稳健建模。这一数据稀缺性也加重了基于学习方法在泛化方面遇到的困难。为了解决这些问题，我们提出了一种可扩展的框架，名为OptMATH，用于合成高质量的数据集。该框架从经过精心筛选的数据种子（带有数学公式MF）开始，自动生成具有可控复杂度的问题数据（PD）。然后采用反向翻译步骤来获得NL。为了验证NL与PD之间的对应关系，使用正向建模步骤和拒绝采样的方法。被接受的配对构成了OptMATH的训练部分。然后确定并进一步过滤掉一组被拒绝的配对。这一集合作为优化模型的新基准，包含实例长度远超NL4OPT和MAMO的复杂案例。通过广泛的实验，我们证明了在OptMATH上训练的各种规模（0.5B-32B参数）的模型在多个建模基准上取得了优异的结果，从而验证了我们方法的有效性和可扩展性。

发布时间: 2/18/2025

查看原文

结构上交谈，层次上行动：一种大型语言模型多Agent系统协作框架

作者: Zhao Wang, Sota Moriyama, Wei-Yao Wang, Briti Gangopadhyay, Shingo Takamatsu

arXiv:2502.11098v1 类型：新摘要：基于大语言模型的多智能体（LLM-MA）系统的最近进展显示出巨大的潜力，但在代理进行复杂任务协作时，管理通信和改进方面仍然存在重大挑战。本文提出了一种名为“Talk Structurally, Act Hierarchically (TalkHier)”的新颖框架，该框架引入了一种结构化的通信协议以进行丰富背景的交流，并引入了一个分层改进系统以解决诸如错误输出、虚假信息和偏差等问题。在包括开放领域问答、特定领域选择性提问和实际广告文本生成等一系列任务上，TalkHier 超越了包括推理缩放模型（OpenAI-o1）、开源多智能体模型（例如 AgentVerse）以及当前大语言模型和单智能体基线（例如 ReAct、GPT4o）在内的多种类型的最先进方法。这些结果突显了它在LBM-MA系统中设定新标准的潜力，为更有效、更具适应性和协作性的多智能体框架铺平了道路。代码可在 https://github.com/sony/talkhier 获取。

发布时间: 2/18/2025

查看原文

可调专家混合模型 - 深度搜索-R1在推理时的行为修改

作者: Robert Dahlke, Henrik Klagges, Dan Zecha, Benjamin Merkel, Sven Rohr, Fabian Klemm

arXiv:2502.11096v1 宣布类型: 新摘要: 我们提出了混合可调专家(MoTE)方法，该方法扩展了大型语言模型(LLMs)的专家混合架构。在不进行额外训练的情况下，MoTE能够在推理时使LLMs实现有意义且定向的行为变化。通过使用我们称之为“功能性标记共振成像”(fTRI，灵感来源于fMRI)的技术分析深度搜索-R1的数字LLM大脑，并使用设计用于引发特定行为的提示(例如，“{时间}{地点}发生了什么？”)，我们实证地识别了与拒绝响应等行为相关的独特专家。使用MoTE，我们能够干预和控制这些特定行为。我们关闭了与拒绝行为最相关的前10个专家(占R1的14,848个路由专家的0.07%)，在对敏感参考提示的拒绝率减少了52%的情况下，没有对MT-Bench的性能造成影响。随机关闭专家导致了较小的行为变化，但噪声增加，而强制激活专家则导致了显著更高的拒绝率。我们的方法在解释性和可引导性方面与稀疏自编码器(SAEs)相似。与SAEs不同，MoTE不需要大规模的训练努力，因为在包含大量专家的MoEs中，专业化在预训练过程中已经自然地出现了。我们的研究结果表明，在专家混合架构中，至少部分重要的功能性机制可以在少数特定专家中局部化，而不是分布在模型的权重中。专家子组可以被调整以触发显著的行为变化，从而提供关于LLM内部工作机制的见解。

发布时间: 2/18/2025

查看原文

自主代理LLM框架以实现适应性决策对话

作者: Antoine Dolant, Praveen Kumar

arXiv:2502.10978v1 宣告类型: 新摘要：在复杂系统中进行有效的决策需要综合多种视角，以在不确定性中应对多方面挑战。本研究引入了一种受现实世界启发的代理大型语言模型（LLMs）框架，以模拟和增强决策对话——通过这一过程，可协作开发可行的战略。与传统的决策支持工具不同，该框架强调对话、权衡探索以及代理之间互动所产生的新兴协同效应。这些代理模拟了不同的角色，每种角色都带来了独特的优先事项、专业知识和价值导向的推理。框架中包含适应性和自我管理机制，使代理能够动态地召唤额外的专长并调整其配置以应对不断变化的挑战。一个关于中西部小镇极端洪水的假设案例示例展示了该框架在应对不确定性、平衡竞争优先事项以及通过考虑社会、经济和环境维度提出缓解和适应策略方面的能力。结果表明，广度优先探索选项促进了稳健和公平的推荐路径。该框架改变了在高风险情境下进行决策的方式，并且可以在数字环境中进行整合。它不仅增强了决策者应对复杂性的能力，还为规模化和情境感知的AI驱动推荐设立了基础。该研究探索了利用代理LLM进行适应性、协作性和公平性推荐过程的新途径和替代路径，具有跨领域的重要意义。

发布时间: 2/18/2025

查看原文

PEA: 提升计算推理任务中语言模型性能

作者: Zi Wang, Shiwei Weng, Mohannad Alhanahnah, Somesh Jha, Tom Reps

arXiv:2502.10938v1 声明类型: 新摘要：大型语言模型（LLMs）在各个领域展现了非凡的能力，促使人们探索它们作为通用推理引擎的潜力。虽然最近的研究探讨了推理时的计算以增强模型在复杂问题上的性能，但当前研究缺乏一个正式框架来表征推理任务的复杂性。本研究引入了谓词枚举聚合（PEA）框架，这是一种描述和解决一类称为计算推理问题的重要推理任务的正式方法。PEA框架将这些问题分解为谓词和枚举组件，使用LLMs基于指定的谓词、枚举和聚合规则合成程序。这些合成程序随后被执行以解决计算任务。我们在布尔可满足性问题、24点游戏以及规划问题等基准任务上展示了该框架的有效性。实证评估表明，PEA显著提升了底层模型在基准计算问题上的性能，平均准确率提高了约50%，同时提高了效率。

发布时间: 2/18/2025

查看原文

SCALE：在社会科学研究中通过大型语言模型代理和人类干预实现的协作内容分析

作者: Chengshuai Zhao, Zhen Tan, Chau-Wai Wong, Xinyan Zhao, Tianlong Chen, Huan Liu

arXiv:2502.10937v1 类型: 新闻摘要: 内容分析将复杂的非结构化文本分解为理论指导的数值类别。特别是，在社会科学中，这一过程通常依赖于多轮手工标注、领域专家讨论和基于规则的改进。在本文中，我们介绍了一种名为SCALE的新颖多代理框架，该框架利用大型语言模型（LLM）代理有效地模拟内容分析。SCALE模仿了内容分析的关键阶段，包括文本编码、协作讨论和动态代码本进化，捕捉了人类研究人员的反思深度和适应性讨论。此外，通过整合多样的人类干预模式，SCALE结合了专家输入以进一步提高其性能。在实际数据集上的广泛评估表明，SCALE在各种复杂内容分析任务上实现了接近人类的表现，为未来的社会科学研究提供了创新潜力。

发布时间: 2/18/2025

查看原文

D-CIPHER：动态协作智能代理，具有规划和异构执行的增强推理 offensive 安全技术

作者: Meet Udeshi, Minghao Shao, Haoran Xi, Nanda Rani, Kimberly Milner, Venkata Sai Charan Putrevu, Brendan Dolan-Gavitt, Sandeep Kumar Shukla, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, Muhammad Shafique

arXiv:2502.10931v1 宣告类型: 新摘要: 大型语言模型(LLLMs)在网络安全领域的应用非常广泛，包括将其用作自主安全分析的智能代理系统。捕获旗子(Capture the Flag, CTF)挑战为评估LLM代理在各种网络安全技能集上的自动化任务规划能力提供了基准。早期尝试将LLM应用于解决CTF挑战主要依赖于单个代理系统，其中反馈仅限于单一的推理-行动循环。这种方法对于处理复杂的CTF任务证明是不够的。受到真实世界CTF竞赛中专家团队合作的启发，我们引入了D-CIPHER多代理LLM框架，用于协同解决CTF挑战。D-CIPHER集成了具有不同角色的代理，使得动态反馈循环得以增强，并提高对CTF挑战的推理能力。它引入了计划者-执行者代理系统，包括一个计划者代理负责整体问题解决，以及多个异构执行者代理负责个体任务，从而在LLMs之间高效地分配责任。此外，D-CIPHER还包含了自动生成提示的代理，通过探索挑战环境并生成高度相关的初始提示，来提高问题解决能力。我们使用多种LLM模型在CTF基准上评估了D-CIPHER，并进行了全面的研究以突出显示我们增强措施的影响。研究结果表明，多代理D-CIPHER系统在解决挑战方面获得了显著改善，并在三个基准上达到了最先进的性能：在NYU CTF Bench上为22.0%，在Cybench上为22.5%，在HackTheBox上为44.0%。D-CIPHER可在 https://github.com/NYU-LLM-CTF/nyuctf_agents 作为nyuctf_multiagent包获取。

发布时间: 2/18/2025

查看原文