arXiv 论文列表

作者: Peijie Yu, Yifan Yang, Jinjian Li, Zelong Zhang, Haorui Wang, Xiao Feng, Feng Zhang

arXiv:2504.02623v2 宣告类型: 替换摘要: 大型语言模型（LLMs）由于其先进的理解和规划能力，显示出作为工具调用代理的强大潜力。用户越来越多地依赖基于LLM的代理通过迭代交互解决复杂的任务。然而，现有的基准主要关注单任务场景，未能捕捉到真实世界的复杂性。为了弥合这一差距，我们提出了多任务工具基准。在该基准中，每个测试案例包含多个相互关联的任务。这种设计要求代理能够动态适应不断变化的需求。此外，提出的基准探索了固定任务数量内的所有可能的任务切换模式。具体而言，我们提出了一种多代理数据生成框架来构建该基准。我们还提出了一种新方法，使用动态决策树评估代理决策的准确性和效率。对各种开源和闭源LLM的实验揭示了影响代理稳健性的关键因素，并为工具调用社会提供了可操作的见解。

发布时间: 4/14/2025

查看原文

brains vs. bytes: 评估大语言模型在奥林匹克数学竞赛中的能力

作者: Hamed Mahdavi, Alireza Hashemi, Majid Daliri, Pegah Mohammadipour, Alireza Farhadi, Samira Malek, Yekta Yazdanifard, Amir Khasahmadi, Vasant Honavar

arXiv:2504.01995v2 通知类型: 替换摘要：近年来，大规模语言模型（LLMs）在数学推理任务上取得了令人印象深刻的进步。然而，当前的评估基准主要侧重于最终答案的准确性，往往忽视了数学问题求解中至关重要的逻辑严谨性。关于最新一代语言模型能够解决数学奥林匹克级别问题的声明需要更仔细的审视。为了探索这一问题，我们对语言模型生成的证明进行了定性和定量的人类评估，并开发了一种自动评估其推理能力的框架。我们的研究揭示，当前的语言模型在解决具有挑战性的奥林匹克级别问题时明显力不从心，经常无法区分正确的数学推理与明显错误的解决方案。我们的分析表明，语言模型偶尔提供的正确最终答案往往源于模式识别或启发式捷径，而非真正的数学推理。这些发现强调了LLM在高级数学推理方面与人类专业知识之间存在的巨大差距，并强调了开发优先考虑得出答案过程中逻辑严谨性的评估标准的重要性，而非仅仅关注最终答案的正确性。

发布时间: 4/14/2025

查看原文

负责任且可信赖的教育数据挖掘：符号、次符号和神经符号AI方法的比较

作者: Danial Hooshyar, Eve Kikas, Yeongwook Yang, Gustav \v{S}\'ir, Raija H\"am\"al\"ainen, Tommi K\"arkk\"ainen, Roger Azevedo

arXiv:2504.00615v2 宣告类型: 修改摘要：鉴于教育领域对负责任和可信赖的人工智能的需求，本研究评估了象征性、次象征性和神经符号性人工智能（NSAI）在通用性和可解释性方面的表现。我们在平衡和不均衡的自我调节学习数据集上对爱沙尼亚小学学生的数学七年级全国测试成绩预测进行了广泛的实验，结果表明，象征性和次象征性方法在处理平衡数据时表现良好，但在处理不均衡数据集时难以识别低绩效者。有趣的是，象征性和次象征性方法在决策过程中强调的不同因素：象征性方法主要依赖于认知和动机因素，而次象征性方法则更多地关注认知方面、学习的知识以及性别这一人口统计变量——然而，两者都忽视了元认知因素。另一方面，NSAI方法通过以下方式展示了优点：(i) 它在两类数据中都表现得更具普遍性——甚至在不均衡数据集中也是如此，因为其象征性知识成分弥补了未被充分代表的类别；(ii) 它在决策过程中依赖于一个更综合性的因素集合，包括动机、(元)认知和学习的知识，因此提供了一个全面且基于理论的可解释性框架。这些对比发现突显了在仅根据预测性能得出结论之前，进行人工智能方法整体比较的必要性。它们还强调了以人为本的混合NSAI方法的潜力，它可以解决其他人工智能家族的局限性，使我们更接近于为教育提供负责任的人工智能。具体来说，通过使利益相关者参与人工智能设计，NSAI将学习到的模式与理论构念对齐，纳入动机和元认知等因素，并强化教育数据分析的信任度和责任性。

发布时间: 4/14/2025

查看原文

基于代理的在线政治讨论模拟：德国选举案例研究

作者: Abdul Sittar, Simon M\"unker, Fabio Sartori, Andreas Reitenbach, Achim Rettinger, Michael M\"as, Alenka Gu\v{c}ek, Marko Grobelnik

arXiv:2503.24199v2 宣布类型: 更改摘要：社交媒体平台上的用户参与受到历史背景、时间限制和奖励驱动的互动的影响。本研究提出了一种基于代理的仿真方法，该方法通过考虑过去的对话历史、动机和资源限制来建模用户互动。我们利用关于政治讨论的德国推特数据，对AI模型进行微调，生成帖子和回复，并结合情感分析、讽刺检测和冒犯分类。仿真采用短视的最优响应模型来规范代理行为，考虑到基于预期奖励的决策。我们的结果突出了历史背景对AI生成响应的影响，并展示了在不同约束条件下参与如何演变。

发布时间: 4/14/2025

查看原文

OmniScience：一个专门领域内的科学推理与发现的大语言模型

作者: Vignesh Prabhakar, Md Amirul Islam, Adam Atanas, Yao-Ting Wang, Joah Han, Aastha Jhunjhunwala, Rucha Apte, Robert Clark, Kang Xu, Zihan Wang, Kai Liu

arXiv:2503.17604v3 公告类型: 替换摘要：大型语言模型（LLMs）在推进科学知识和解决复杂挑战方面展现出了非凡的潜力。在本文中，我们介绍了OmniScience，这是一种专门为了通用科学而开发的大型推理模型，通过三个关键组件进行开发：(1) 在精心挑选的科学文献语料库上进行领域自适应预训练，(2) 在专门的数据集上进行指令微调，以引导模型遵循特定领域的任务，以及(3) 通过微调进行基于推理的知识蒸馏，以显著提高其生成上下文相关且逻辑严密响应的能力。我们通过开发电池代理，能够高效地对分子进行排名，以确定其作为潜在电解质溶剂或添加剂的可能性，展示了OmniScience的多功能性。全面的评估结果显示，OmniScience在GPQA钻石和特定领域的电池基准测试中与最先进的大型推理模型竞争力相当，并且参数数量相近时，优于所有公开的推理和非推理模型。进一步通过消融实验表明，在各个基准测试中达到我们的性能水平的关键在于领域自适应预训练和基于推理的知识蒸馏。

发布时间: 4/14/2025

查看原文

系统2规划的蒙特卡洛树扩散方法

作者: Jaesik Yoon, Hyeonseo Cho, Doojin Baek, Yoshua Bengio, Sungjin Ahn

arXiv:2502.07202v2 宣布类型: 替换摘要：扩散模型最近已成为一种强大的规划工具。然而，与蒙特卡洛树搜索（MCTS）不同，MCTS 的性能随着测试时间计算（TTC）的增加而自然提高，而标准的基于扩散的规划器在 TTC 可扩展性方面提供的途径有限。在本文中，我们引入了蒙特卡洛树扩散（MCTD），这是一种新颖的框架，将扩散模型的生成能力与 MCTS 的自适应搜索能力相结合。我们的方法将去噪重新概念化为一种树结构过程，允许部分去噪的计划迭代地评估、修剪和改进。通过选择性地扩展有前途的轨迹，同时保留返回并改进非最优分支的灵活性，MCTD 在扩散框架内实现了 MCTS 的好处，如管理探索与利用的权衡。在挑战性的长期任务上的实验结果表明，MCTD 在 TTC 增加时提供了更高的质量的解决方案，优于扩散基线。

发布时间: 4/14/2025

查看原文

ANSR-DT：数字孪生的自适应神经符号学习与推理框架

作者: Safayat Bin Hakim, Muhammad Adil, Alvaro Velasquez, Houbing Herbert Song

arXiv:2501.08561v2 通知类型: 替换摘要：在本文中，我们提出了一种用于数字孪生技术的自适应神经-符号学习与推理框架，称为“ANSR-DT”。在工业环境中，数字孪生经常面临可解释性、实时适应性和人类输入集成的挑战。我们的方法通过结合基于CNN-LSTM的动态事件检测、强化学习和符号推理，解决了这些挑战，以实现具有可解释决策过程的自适应智能。这种整合增强了对环境的理解，促进了持续学习，从而在人机协作应用中实现更有效的实时决策。我们使用合成工业数据评估了ANSR-DT，观察到在传统方法上取得了显著改善，动态模式识别的准确率高达99.5%。该框架展示了在扩展的强化学习训练下具有更好的适应性，使解释的方差从0.447提高到0.547。未来的工作将致力于将该框架扩展到更大的数据集，以测试超出当前14条规则的规则管理。我们开源的实现促进了可重复性，并为未来在工业应用中研究自适应、可解释的数字孪生奠定了基础。

发布时间: 4/14/2025

查看原文

egoPlan-Bench2：一种用于现实场景多模态大型语言模型规划的基准测试

作者: Lu Qiu, Yi Chen, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu

arXiv:2412.04447v2 公告类型：替换摘要：多模态大型语言模型的出现，利用了大型语言模型的强大功能，最近展示了卓越的多模态理解和推理能力，预示着人工智能通用智能新时代的到来。然而，实现AGI不仅仅是理解和推理。一个关键能力是有效规划，在各种场景中作出合理的决策，以应对复杂环境并解决实际问题。尽管如此，当前多模态语言模型在各种场景中的规划能力仍处于未被充分探索的状态。在本文中，我们介绍了EgoPlan-Bench2，这是一种严谨而全面的基准测试，旨在评估多模态语言模型在广泛的实际场景中的规划能力。EgoPlan-Bench2涵盖了4个主要领域和24个详细场景的日常任务，与人类日常生活的实际紧密相连。通过半自动过程构建，使用第一人称视角的自我中心视频，并辅以手动验证。基于第一人称视角，它反映了人类日常生活中解决问题的方式。我们评估了21个竞争性的多模态语言模型，并对其局限性进行了深入分析，揭示了它们在实际规划中面临的显著挑战。为了进一步提高当前多模态语言模型的规划能力，我们通过调查各种多模态提示在复杂规划中的有效性，提出了一个无需训练的多模态Chain-of-Thought（CoT）提示方法。这种方法在EgoPlan-Bench2上将GPT-4V的表现提升了10.24。我们的研究不仅揭示了当前多模态语言模型在规划方面的局限性，还为这一关键领域的未来改进提供了见解。我们在https://qiulu66.github.io/egoplanbench2/发布数据和代码。

发布时间: 4/14/2025

查看原文

创新思维，无限幽默：通过结构化思维跃迁的大语言模型幽默研究

作者: Han Wang, Yilin Zhao, Dian Li, Xiaohan Wang, Gang Liu, Xuguang Lan, Hui Wang

arXiv:2410.10370v2 宣布类型：替换摘要：幽默过去被认为只是人类独有的礼物，原因如下。幽默是一种文化上精细的人类语言特征，这为理解与生成带来了挑战。幽默的生成需要一个多跳推理过程，每个跳基于适当的理由。尽管有许多研究，如GPT-o1相关的研究，专注于反思和纠正的逻辑推理，它们在幽默生成方面仍有所欠缺。由于创造性思考中的知识图谱稀疏性，实现多跳推理变得困难。因此，在本文中，我们提出了一种更 robust 的框架来处理幽默推理任务，命名为LoL。LoL旨在注入外部信息以缓解知识图谱的稀疏性，从而实现多跳推理。在LoL的第一阶段，我们提出了一种自动指令进化方法，以纳入幽默背后的更深入和更广泛的思考过程。判断导向的指令被设计出来，以增强模型的判断能力，动态补充和更新稀疏的知识图谱。随后，通过强化学习，使用GPT-4o从每个在线生成的响应中提取推理逻辑。在这个过程中，外部知识再次被引入以帮助模型进行逻辑推理，并学习人类的偏好。最后，实验结果表明，这两种过程的结合可以增强模型的判断能力和生成能力。这些发现加深了我们对大规模语言模型(LLMs)创造性能力的理解，并提供了提升LLMs创造性能力以用于跨域创新应用的方法。

发布时间: 4/14/2025

查看原文

Dualformer：通过学习随机化推理轨迹实现可控制的快速与慢速思考

作者: DiJia Su, Sainbayar Sukhbaatar, Michael Rabbat, Yuandong Tian, Qinqing Zheng

arXiv:2410.09918v2 公告类型：替换摘要：在人类认知理论中，人类思维由两个系统主导：快速且直观的系统1和较慢但更为审慎的系统2。近期研究显示，在包括大型语言模型（LLMs）的Transformer中引入系统2的过程，显著增强了其推理能力。然而，纯粹模仿系统2思维模式的模型需要更高的计算成本，并且响应速度也更为缓慢。为应对这一挑战，我们提出了一种称为Dualformer的单一Transformer模型，该模型能够无缝集成快和慢的推理模式。Dualformer通过在带有随机推理轨迹的数据上进行训练获得，训练过程中会根据轨迹结构特定地丢弃轨迹的不同部分。丢弃策略类比于分析我们的思考过程并创建带有模式的捷径。在推理阶段，我们的模型可以配置为仅输出解决方案（快速模式），或同时输出推理链和最终解决方案（慢速模式），或自动决定使用哪种模式（自动模式）。在所有情况下，Dualformer在性能和计算效率上均优于相应的基线模型：（1）在慢速模式下，Dualformer有97.6%的时间能够最优地解决30x30迷宫导航任务，比在完整推理轨迹数据上训练的Searchformer基线模型（性能为93.3%）提高了近6个百分点，同时仅使用45.5%的推理步骤；（2）在快速模式下，Dualformer以80%的最优率完成这些任务，显著优于仅接受解决方案数据进行微调的Solution-Only模型（最优率为30%）。在数学问题上，我们的技术也显示出了在LLM微调中的优越性能，并展示了其超越特定任务模型的一般化能力。

发布时间: 4/14/2025

查看原文