arXiv 论文列表

作者: Jinwei Su, Yinghui Xia, Ronghua Shi, Jianhui Wang, Jianuo Huang, Yijin Wang, Tianyu Shi, Yang Jingsong, Lewei He

arXiv:2503.23781v1 宣告类型: 新摘要：大规模语言模型（LLMs）在自动化工作流的生成和优化方面展现了强大的潜力和 impressive 的性能。然而，现有的方法存在推理能力有限、高计算需求和大量资源要求的局限。为了解决这些问题，我们提出了一种名为 DebFlow 的框架，该框架利用辩论机制来优化工作流，并结合反省以基于先前的经验进行改进。我们在六个基准数据集中评估了我们的方法，包括 HotpotQA、MATH 和 ALFWorld。我们的方法在最新的基线下实现了 3% 的平均性能提升，这表明其在多种问题领域中的有效性。特别是在训练过程中，与最先进的基线下相比，我们的框架减少了 37% 的资源消耗。此外，我们还进行了消融研究。移除辩论组件导致两个基准数据集的性能下降 4%，远远大于移除反省组件时观察到的 2% 的下降。这些发现强烈证明了辩论在提升框架性能中的关键作用，同时也突显了反省在整体优化中的辅助贡献。

发布时间: 4/1/2025

查看原文

MolGround：分子定位基准

作者: Jiaxin Wu, Ting Zhang, Rubing Chen, Wengyu Zhang, Chen Jason Zhang, Xiaoyong Wei, Li Qing

arXiv:2503.23668v1 宣告类型: 新摘要: 当前的分子理解方法主要集中在人类感知的描述方面，提供了广泛的主题级洞察。然而，指称方面——将分子概念与具体的结构组件关联起来——仍然很大程度上未被探索。为了弥补这一缺口，我们提出了一种分子基座基准，旨在评估模型的指称能力。我们将分子基座与NLP、化学信息学和分子科学中已建立的惯例相结合，展示了自然语言处理技术在AI for Science运动中推进分子理解的潜力。此外，我们构建了迄今为止最大的分子理解基准，包含79,000个问答对，并开发了一个多代理基座原型作为概念验证。该系统在现有模型（包括GPT-4o）中表现出色，并将其基座输出整合到传统的任务中，如分子描述和ATC（解剖学、治疗学、化学）分类中。

发布时间: 4/1/2025

查看原文

人工智能时代的GIScience：通往自主GIS的研究议程

作者: Zhenlong Li, Huan Ning, Song Gao, Krzysztof Janowicz, Wenwen Li, Samantha T. Arundel, Chaowei Yang, Budhendra Bhaduri, Shaowen Wang, A-Xing Zhu, Mark Gahegan, Shashi Shekhar, Xinyue Ye, Grant McKenzie, Guido Cervone, Michael E. Hodgson

arXiv:2503.23633v1 通知类型: 新摘要：生成型人工智能的出现，以大规模语言模型（LLMs）为例，为表示和计算地理信息开辟了新途径，并超越了地理知识生产的过程，推动了地理信息系统（GIS）向自主GIS的方向发展。利用LLMs作为决策核心，自主GIS能够独立生成和执行地理处理工作流来执行空间分析。在这篇愿景论文中，我们详细阐述了自主GIS的概念，并提出了一种框架来定义其五个自主目标、五个自主层次、五个核心功能以及三个操作规模。我们通过四个概念性的GIS代理展示自主GIS如何执行地理空间数据检索、空间分析和制图。最后，我们识别了关键挑战和未来研究方向，包括微调和自我成长的决策核心、自主建模以及探索自主GIS的伦理和实践意义。通过在GIS科学中建立范式转变的基础，本文展望了一个未来，其中GIS超越传统的工作流，自主地推理、推导、创新并推进应对全球紧迫挑战的解决方案。

发布时间: 4/1/2025

查看原文

内在动机的人类和代理在开放世界探索中

作者: Aly Lidayan, Yuqing Du, Eliza Kosoy, Maria Rufova, Pieter Abbeel, Alison Gopnik

arXiv:2503.23631v1 探索类型: 新摘要: 什么驱使探索？了解内在动机是认知科学和人工智能领域长期面临的挑战；提出了众多目标用于训练代理，但人和代理的探索之间依然存在差距。我们直接在复杂的开放式环境 Crafter 中比较成人、儿童和AI代理，并研究通用内在目标：熵、信息增益和授权，如何与他们的行为相关。我们发现，只有熵和授权与人类探索进展的一致正相关，表明这些目标可能更好地指导代理的内在奖励设计。此外，在代理和人类中我们观察到，熵最初迅速增加，然后停滞，而授权持续增加，这表明状态多样性可能在早期探索中提供更多的信号，而高级探索应优先考虑控制。最后，我们发现初步证据表明，私人性的言语表达，特别是目标言语化，可能有助于儿童的探索。

发布时间: 4/1/2025

查看原文

超越检测：设计具有自动反馈工具的AI抵抗评估以培养批判性思维

作者: Muhammad Sajjad Akbar

arXiv:2503.23622v1 通知类型: 新摘要：生成式AI工具如ChatGPT的日益广泛应用引起了对其对学生学习影响的紧迫担忧，特别是这种工具可能侵蚀批判性思维和创造力的潜在风险。随着学生越来越多地依赖这些工具来完成评估，基础认知技能可能会被绕过，这挑战了高等教育的完整性和学生作品的真实性。现有的AI生成文本检测工具不充分；它们会产生不可靠的结果，并且容易产生误报和漏报，尤其是在学生运用改写、翻译或重新措辞时。这些系统依赖于浅层的统计模式而非真正的上下文或语义理解，使其不适合作为AI滥用的最终指标。作为回应，本研究提出了一种基于评估设计而非检测的主动、抗AI解决方案。它介绍了一个基于Web的Python工具，结合了布卢姆分类法和先进的自然语言处理技术，包括GPT-3.5 Turbo、基于BERT的语义相似性和TF-IDF度量，以评估评估任务的AI可解性。通过分析表面级和语义特征，该工具帮助教育者确定任务是针对低阶思维如记忆和总结，还是针对高阶技能如分析、评估和创造，这些技能更抗AI自动化。该框架赋予教育者能力设计出认知要求高、抗AI的评估任务，促进原创性、批判性思维和公平性。它提供了一种可持续且教育学上可行的策略，促进真实的学习并维护在AI时代学术标准。

发布时间: 4/1/2025

查看原文

面向组织的方法以增强多智能体 reinforcement learning 的可解释性和控制性

作者: Julien Soul\'e, Jean-Paul Jamont, Michel Occello, Louis-Marie Traonouez, Paul Th\'eron

arXiv:2503.23615v1 宣布类型: 新摘要: 多智能体强化学习可以促进表现出与组织概念相似协作行为的智能体的发展。在此视角基础上，我们提出了一种新的框架，该框架明确将 $\mathcal{M}OISE^+$ 模型中的组织角色和目标整合到多智能体强化学习过程中，引导智能体满足相应的组织约束。通过基于角色和目标进行结构化训练，我们旨在提升组织层面智能体行为的可解释性和可控性，而现有文献主要关注个体智能体。此外，我们的框架包含一种后训练分析方法，用于推断隐含的角色和目标，从而提供对智能体涌现行为的洞察。该框架已在多种多智能体强化学习环境和算法中得到应用，展示了预定义的组织规格与从训练智能体中推断出的规格之间的一致性。

发布时间: 4/1/2025

查看原文

GenVP：使用对比层次VAEs生成视觉谜题

作者: Kalliopi Basioti, Pritish Sahu, Qingze Tony Liu, Zihao Xu, Hao Wang, Vladimir Pavlovic

arXiv:2503.23598v1 生成类型: 新摘要: Raven's Progressive Matrices (RPMs) 是一个已建立的标准基准，用于检验进行高级抽象视觉推理（AVR）的能力。尽管当前解决此任务的算法已经取得了成功，但人类可以在给定的一个谜题之外进行泛化，并且在给定一套规则的情况下创作新的谜题，而机器仍然局限于解决从策划选择列表中固定下来的谜题。我们提出了一种生成视觉谜题（GenVP）的框架，以模拟整个 RPM 生成过程，这是一个显著更具挑战性的任务。我们的模型的能力涵盖了为一个特定的问题提示生成多个解决方案，到根据特定规则集创作全新的谜题。在五个不同数据集上的实验表明，GenVP 在谜题解决准确性和 22 种离分布（OOD）泛化场景中的性能均达到当前最先进的（SOTA）水平。与当前最先进的生成方法相比，当可行解的空间增加时，GenVP 能够更有效地泛化到这些具有挑战性的设置。此外，我们的模型展示了根据一些抽象规则有效捕捉抽象规则与视觉对象属性之间的关系，从而生成一系列完整的 RPM 的能力。

发布时间: 4/1/2025

查看原文

大规模语言和推理模型中系统关系推理的基准测试

作者: Irtaza Khalid, Amir Masoud Nourollah, Steven Schockaert

arXiv:2503.23487v1 宣布类型: 新摘要: 大型语言模型（LLMs）已被发现难以进行系统性推理。即使在他们看起来表现良好的任务上，他们的表现往往依赖于捷径，而不是真正的推理能力，导致他们在分布外的例子上崩溃。基于强化学习和链式思考提示的后训练策略最近被认为是一个质的飞跃。然而，关于这些所谓的“大型推理模型”（LRMs）在数学和编程问题解决之外的能力，仍知之甚少，特别是在找到真正分布外问题较为困难的情况下。在这篇论文中，我们专注于需要关于关系组合进行系统性推理的任务，特别是在定性空间和时间推理方面。这些任务允许我们控制问题实例的难度，并精确测量模型在多大程度上能够泛化。我们发现，所考虑的LLMs和LRMs整体表现较差，尽管比随机猜测要好一些。

发布时间: 4/1/2025

查看原文

基于用户偏好和行为的旅行时间估计的行程路线规划系统性十年回顾

作者: Nikil Jayasuriya, Deshan Sumanathilaka

arXiv:2503.23486v1 宣告类型: 新摘要: 本文系统地探讨了通过人工智能（AI）在自适应行程路线规划和旅行时间估计（TTE）方面的进展。随着城市交通系统的日益复杂，传统导航方法往往难以适应动态用户偏好、实时交通状况以及可扩展性要求。本研究探讨了包括机器学习（ML）、强化学习（RL）和图神经网络（GNN）在内的现有AI技术的贡献，以及元学习、可解释AI（XAI）、生成式AI和联邦学习等新兴方法。除了强调这些创新之外，本文还指出了必须解决的关键挑战，如伦理问题、计算可扩展性和有效数据集成，以推动该领域的发展。论文最后提出了利用AI构建高效、透明和可持续导航系统的建议。

发布时间: 4/1/2025

查看原文

大型语言模型在反驳、解释和目标意识提示 formulatation 方面是更优秀的逻辑谬误推理器

作者: Jiwon Jeong, Hyeju Jang, Hogun Park

arXiv:2503.23363v1 通知类型: 新摘要: 大型语言模型（LLMs）的进步极大地提高了我们处理复杂语言的能力。然而，准确检测逻辑谬误仍然是一个重大的挑战。本研究提出了一种新颖且有效的提示形式化方法，适用于监督（微调）和无监督（零样本）设置中的逻辑谬误检测。我们的方法通过整合输入文本中的隐含上下文信息——反论、解释和目标——查询这些信息在论点背景下的有效性。然后，根据置信度分数对这些查询进行排序，以指导分类。我们利用GPT和LLaMA系列的模型，在5个领域的多个数据集中评估了我们的方法，涵盖了29种不同的谬误类型。结果显示，在零样本设置中，F1分数提高了最高达0.60，在微调模型中提高了最高达0.45。进一步的分析详细解释了为什么以及我们的方法如何表现出色。

发布时间: 4/1/2025

查看原文