arXiv 论文列表

作者: Timoth\'ee Anne, Noah Syrkis, Meriem Elhosni, Florian Turati, Franck Legendre, Alain Jaquier, Sebastian Risi

arXiv:2412.11761v2 公告类型: 修改摘要: 大型语言模型（LLMs）在各种任务中展现了出色的性能。它们在促进人类与众多代理的合作方面的潜力是充满希望但尚未充分探索的领域。这种能力在灾难响应、城市规划和实时策略场景中将非常有用。在本文中，我们介绍（1）一个实时策略游戏基准测试，旨在评估这些能力，以及（2）一种我们称为HIVE的新框架。HIVE通过与LLM的自然语言对话，使单个人类能够协调多达2,000个代理的合作。我们在这个多代理基准测试中展示了令人鼓舞的结果，我们的混合方法解决了协调代理移动、利用单位弱点、利用人类注释、理解和规划地形及战略点等方面的问题。我们的研究结果还突显了当前模型的关键限制，包括处理空间视觉信息的困难以及制定长期战略计划的挑战。本研究揭示了LLM在人类-代理群协调方面的潜力和限制，为该领域的未来研究开辟了道路。HIVE项目页面，hive.syrkis.com，包括系统运行的视频。

发布时间: 4/23/2025

查看原文

命名游戏作为大型语言模型的基准

作者: Matthew Stephenson, Matthew Sidji, Beno\^it Ronval

arXiv:2412.11373v2 声称类型: 修订摘要: 在本文中，我们提出了将广受欢迎的文字基础桌面游戏Codenames作为一个适合评估大型语言模型（LLMs）推理能力的基准测试的建议。Codenames为实现成功的AI性能提供了一个极具挑战性的任务，需要复杂的语言理解、心理理论能力和知识论推理能力。此前针对Codenames开发代理的尝试大多依赖于词嵌入技术，这种方法词汇量范围有限，且当与不同方法结合使用时表现不佳。大型语言模型在基于语言的任务上展示了增强的推理和理解能力，但在侧向思维挑战方面仍然存在问题。我们评估了包括GPT-4o、Gemini 1.5、Claude 3.5 Sonnet和Llama 3.1在内的几种最先进的大型语言模型在各种棋盘布局上的能力。我们的结果显示，尽管某些大模型整体上表现更好，但不同的模型在游戏过程中展现出不同的 emergent 行为，并擅长特定的角色。我们还评估了不同大模型组合在一起时的合作性能，表明大模型代理比之前的技巧更具适用性，能够与更广泛的队友进行合作。

发布时间: 4/23/2025

查看原文

AI 预测 AGI：利用 AGI 预测和同行评审探索大语言模型的复杂推理能力

作者: Fabrizio Davide, Pietro Torre, Leonardo Ercolani, Andrea Gaggioli

arXiv:2412.09385v2 宣布类型：替换摘要：我们要求16个最先进的大型语言模型（LLMs）估算人工智能通用智能（AGI）在2030年出现的概率。为了评估这些预测的质量，我们实施了一个自动同行评审过程（LLM-PR）。这些LLMs的估计值差异很大，从Reka-Core的3%到GPT-4o的47.6%，中位数为12.5%。这些估计值与最近一项专家调查的预测相吻合，预测显示到2027年AGI出现的概率为10%，这强调了LLMs在预测复杂、推测性场景方面的重要性。LLM-PR过程显示出很强的可靠性，这从高内类别相关系数（ICC = 0.79）中得到了证实，反映了模型评分的一致性。在这之中，Pplx-70b-online脱颖而出成为最佳模型，而Gemini-1.5-pro-api排名最低。与外部基准，如LMSYS Chatbot Arena的交叉比较显示，LLMs的排名在不同的评估方法中保持一致，这表明现有的基准可能无法涵盖对AGI预测相关的部分技能。我们进一步探讨了基于外部基准的加权方案，优化LLMs的预测与人类专家预测的一致性。这一分析导致开发了新的“AGI基准”，旨在突出AGI相关任务中的性能差异。我们的研究结果提供了关于LLMs在推测性和跨学科预报任务方面的能力见解，并强调了在复杂、不确定的现实场景中评估AI性能时创新评估框架的需求。

发布时间: 4/23/2025

查看原文

朝向统一的因果解释评估：利用大型语言模型进行以人为本的评估

作者: Marharyta Domnich, Julius V\"alja, Rasmus Moorits Veski, Giacomo Magnifico, Kadi Tulver, Eduard Barbu, Raul Vicente

arXiv:2410.21131v3 宣告类型: 替换摘要: 随着机器学习模型的发展，保持透明度需要更加以人为本的可解释人工智能技术。反事实解释，其根源在于人类的推理，能够识别出产生给定输出所需的最小输入变化，因此对于支持决策至关重要。尽管它们的重要性不言而喻，但这些解释的评估往往缺乏用户研究的支持，并且仍然是碎片化的，现有的评估指标未能充分捕捉人类视角。为了解决这一挑战，我们开发了一组多样化的30个反事实场景，并从206名受访者中收集了8个评估指标的评分。随后，我们对不同的大型语言模型（LLMs）进行了微调，以预测这些指标下的平均或个体人类判断。我们的方法使LLMs在零样本评估中达到63%的准确性，在所有指标的微调中则达到了85%（三类预测）。微调后的模型能够更好地评估不同反事实解释框架，提供更好的可比性和扩展性。

发布时间: 4/23/2025

查看原文

DeepDiveAI: 在大规模文献数据中识别与AI相关的文档

作者: Zhou Xiaochen, Liang Xingzhou, Zou Hui, Lu Yi, Qu Jingjing

arXiv:2408.12871v5 通知类型: 替换摘要：在本文中，我们提出了一种自动分类来自大规模文献数据库的AI相关文档的方法，从而创建了一个名为DeepDiveAI的AI相关文献数据集。数据集的构建方法结合了专家知识与先进模型的能力，跨越两个全球阶段。在第一阶段，使用专家精心编制的分类数据集来训练一个LSTM模型，用于对大规模数据集中的粗粒度AI相关记录进行分类。在第二阶段，我们使用Qwen2.5 Plus对粗粒度AI相关的10%记录进行注解，然后使用这些数据训练一个BERT二元分类器。这一步骤进一步细化了粗粒度的AI相关记录集，以获得最终的DeepDiveAI数据集。评估结果表明，整个工作流程可以从大规模数据集中高效且准确地识别AI相关的文献。

发布时间: 4/23/2025

查看原文

LLMs中反事实偏差的认证

作者: Isha Chaudhary, Qian Hu, Manoj Kumar, Morteza Ziyadi, Rahul Gupta, Gagandeep Singh

arXiv:2405.18780v3 宣布类型: 替换摘要: 大型语言模型（LLMs）可能会产生有偏见的响应，从而造成表征危害。然而，传统的研究无法彻底评估不同人口群体（即反事实偏见）的LLM响应中的偏见，因为它们无法规模化处理大量输入，并且无法提供保证。因此，我们提出了第一个框架LLMCert-B，用于在提示分布上认证LLM的反事实偏见。证书包括在任何一组反事实提示（即在不同人口群体下不同的提示）下，无偏LLM响应的概率的高置信度边界。我们展示了通过将来自前缀分布的前缀应用到给定提示集，创建反事实提示分布的情况下，反事实偏见认证的示例。我们考虑的前缀分布包括随机token序列、手动脱 jailbreak的混合以及LLM嵌入空间中脱 jailbreak的扰动。我们为SOTA LLM生成了非平凡的证书，揭示了它们在由计算成本低廉的前缀分布生成的提示分布中面临的漏洞。

发布时间: 4/23/2025

查看原文

认证大规模语言模型的知识理解能力

作者: Isha Chaudhary, Vedaant V. Jain, Gagandeep Singh

arXiv:2402.15929v3 安全公告类型：替换摘要：大型语言模型（LLMs）越来越多地被部署在安全关键系统中，在这些系统中，它们基于从知识库中获取的上下文信息提供答案。随着LLMs被设想为超人类代理，其理解知识并提取相关信息进行推理以回答问题的能力，这一体现人类智能关键方面的能力变得至关重要。然而，现有的对LLMs知识理解能力的评估通常是在小规模测试集上进行的，但这些数据集仅代表了庞大可能查询的一小部分。这些有限测试集上的简单经验性评估引发了关于评估结果的可靠性和普适性的担忧。在本文中，我们引入了第一个关于LLMs知识理解能力的规范和认证框架，提供了关于可靠性的正式概率保证。我们设计了新颖的规范，通过使用知识图谱来数学地表示以自然噪音为特征的难以穷尽的概率分布的知识理解提示。从这些规范中，我们生成定量证书，为LLMs以高置信度给出任何问题的答案提供严格的概率边界。我们应用该框架来认证两个领域中的SOTA LLMs：精准医学和一般问答。我们的结果揭示了由于提示中的自然噪音而导致的SOTA LLMs未曾意识到的漏洞。此外，我们在正式保证的背景下确立了SOTA LLMs在精准医学问答领域的性能层次结构。

发布时间: 4/23/2025

查看原文

基于实际案例研究的生产调度中的语言模型企业优化

作者: Pivithuru Thejan Amarasinghe, Su Nguyen, Yuan Sun, Damminda Alahakoon

arXiv:2309.13218v5 通知类型: 更新摘要: 商业优化已被广泛用于确定复杂业务操作的最佳解决方案。问题形式化是商业优化的一个重要组成部分，因为它会影响解决方案的有效性以及优化过程的效率。虽然已经开发了不同的优化建模语言，但问题形式化仍然不是一项简单的任务，通常需要优化专业知识和领域知识。近年来，大型语言模型（LLMs）在不同的语言相关任务中表现出卓越的表现。由于问题形式化可以视为一种翻译任务，因此有可能利用LLMs来自动化问题形式化。然而，由于可用训练数据有限且现实世界的优化问题复杂性，开发一个用于问题形式化的LLM是有挑战性的。文献中提出了几种提示工程技术来利用LLMs自动进行问题形式化。虽然初始结果令人鼓舞，但这些方法生成的公式准确性仍有显著提高的空间。在本文中，我们提出了一个基于LLM的框架，用于在商业优化中自动化问题形式化。我们的方法介绍了一种针对特定商业优化挑战定制的成本效益较高的LLM微调方法。实验结果表明，我们的框架可以生成准确的公式，以应对生产调度中的常规和实际商业优化问题。全面的分析显示，所提出的微调方法的有效性和收敛性。当在一般线性规划问题上进行测试时，所提出的方法在与文献中最先进的提示工程技术的性能比较中也表现出了非常有竞争力的表现。

发布时间: 4/23/2025

查看原文

LLMs是贪婪代理：RL微调对决策能力的影响

作者: Thomas Schmied, J\"org Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu

arXiv:2504.16078v1 机构类型: cross 摘要：大型语言模型（LLMs）的成功激发了各种代理应用的兴趣。一个关键假设是，通过利用常识和链式思考（CoT）推理，LLMs能够有效地探索和高效地解决复杂的领域。然而，已经发现LLM代理在探索上存在次优性，并且在知道如何行动方面的差距，即无法有效地利用模型中存在的知识来行动。在本文中，我们系统地研究了LLMs在决策场景中表现得不够优化的原因。特别是，我们密切检查了三种常见的失败模式：贪婪性、频率偏差以及知道如何行动的差距。我们通过使用强化学习（RL）微调自动生成的CoT推理来缓解这些不足。我们在多臂bandit、上下文bandit和井字棋等实验中表明，通过RL微调增强了LLMs的决策能力，增加了探索并缩小了知道如何行动的差距。最后，我们研究了经典的探索机制，如ε-贪婪，以及特定于LLM的方法，如自我校正和自我一致性，以使LLMs在决策方面更有效地进行微调。

发布时间: 4/23/2025

查看原文

描述anything：详细局部图像和视频描述

作者: Long Lian, Yifan Ding, Yunhao Ge, Sifei Liu, Hanzi Mao, Boyi Li, Marco Pavone, Ming-Yu Liu, Trevor Darrell, Adam Yala, Yin Cui

arXiv:2504.16072v1 声称类型：交叉摘要：生成图像和视频中特定区域的详细准确描述仍然是视觉语言模型的基本挑战。我们引入了 Describe Anything Model（DAM）模型，这是一种用于详细局部描述（DLC）的模型。DAM 通过两个关键创新保留了局部细节和全局上下文：聚焦提示，确保对目标区域进行高分辨率编码；局部视觉主干，将精确的定位与其更广泛的上下文相结合。为了应对高质量 DLC 数据的稀缺，我们提出了一种基于半监督学习（SSL）的数据管道（DLC-SDP）。DLC-SDP 从现有的分割数据集开始，并使用 SSL 扩展到未标记的网络图像。我们引入了 DLC-Bench，这是一个基准，用于评估 DLC 而不依赖于参考描述。DAM 在涵盖关键词级别、短语级别和详细的多句局部图像和视频描述的 7 个基准测试上均创下新的状态最好。

发布时间: 4/23/2025

查看原文