arXiv 论文列表

作者: Kexiong Yu, Hang Zhao, Yuhang Huang, Renjiao Yi, Kai Xu, Chenyang Zhu

组合优化 (CO) 问题在众多不同行业的实际应用中至关重要，其特点是解空间巨大且需要及时响应。尽管神经求解器最近取得了进展，但其表达能力有限，难以捕捉组合优化问题的多模态特性。虽然一些研究转向扩散模型，但这些模型仍然从整个 NP 完全解空间中不加区分地采样解，且去噪过程耗时，限制了其在大规模问题中的实用性。我们提出了一种高效的用于大规模组合优化问题的扩散求解器 DISCO，它在解的质量和推理速度方面都表现出色。DISCO 的有效性体现在两个方面：首先，它通过由解残差引导的约束采样空间到更有意义的域，同时保留输出分布的多模态特性，从而提高了解的质量；其次，它通过一种解析可解的方法加速去噪过程，使得能够以最少的反向时间步长采样解，并显著减少推理时间。在大型旅行商问题和具有挑战性的最大独立集基准测试中，DISCO 表现出色，推理速度比其他扩散模型快 5.28 倍。通过结合分治策略，DISCO 能够很好地推广到求解未见规模的问题实例，甚至超过专门针对这些规模训练的模型。

发布时间: 10/10/2024

查看原文

RouteFinder：面向车辆路径问题的基础模型

作者: Federico Berto, Chuanbo Hua, Nayeli Gast Zepeda, Andr\'e Hottung, Niels Wouda, Leon Lan, Junyoung Park, Kevin Tierney, Jinkyoo Park

本文介绍了RouteFinder，一个用于解决不同车辆路径规划问题（VRP）变体的综合基础模型框架。我们的核心思想是，VRP的基础模型应该能够通过将每个变体视为配备不同属性的广义问题的子集来表示这些变体。我们提出了一个统一的VRP环境，能够有效地处理任何属性组合。RouteFinder模型利用基于现代Transformer的编码器和全局属性嵌入来改进任务表示。此外，我们引入了两种强化学习技术来增强多任务性能：混合批训练，它能够同时对不同的变体进行训练；以及多变体奖励归一化，以平衡不同的奖励尺度。最后，我们提出了高效的适配器层，能够对具有未见属性的新变体进行微调。在24个VRP变体上的大量实验表明，RouteFinder取得了具有竞争力的结果。我们的代码已公开发布在https://github.com/ai4co/routefinder。

发布时间: 10/10/2024

查看原文

基于离散世界模型的思维理论复杂性概念

作者: X. Angelo Huang, Emanuele La Malfa, Samuele Marro, Andrea Asperti, Anthony Cohn, Michael Wooldridge

心智理论 (ToM) 可用于评估大型语言模型 (LLM) 在需要社会推理的复杂场景中的能力。虽然研究界提出了许多 ToM 基准测试，但它们的难度差异很大，其复杂性也没有得到很好的定义。这项工作提出了一种受认知负荷理论启发的框架来衡量 ToM 任务的复杂性。我们将问题的复杂性量化为正确解决问题所需的态数。我们的复杂性度量也考虑了 ToM 问题的虚假状态，这些状态旨在使其看起来更难。我们使用我们的方法来评估五个广泛采用的 ToM 基准测试的复杂性。在此框架之上，我们设计了一种提示技术，该技术使用环境如何随着代理交互而变化的描述来增强模型可用的信息。我们将这种技术命名为离散世界模型 (DWM)，并展示了它如何在 ToM 任务上获得优越的性能。

发布时间: 10/10/2024

查看原文

DISCOVERYWORLD：一个用于开发和评估自动化科学发现智能体的虚拟环境

作者: Peter Jansen, Marc-Alexandre C\^ot\'e, Tushar Khot, Erin Bransom, Bhavana Dalvi Mishra, Bodhisattwa Prasad Majumder, Oyvind Tafjord, Peter Clark

自动化科学发现有望加速各个科学领域的进步。然而，评估人工智能主体进行端到端科学推理的能力具有挑战性，因为进行现实世界的实验往往成本过高或不可行。在这项工作中，我们介绍了DISCOVERYWORLD，这是一个用于开发和测试主体执行完整新科学发现周期的能力的第一个虚拟环境。DISCOVERYWORLD包含各种不同的挑战，涵盖放射性同位素测年、火箭科学和蛋白质组学等不同主题，以鼓励发展通用的发现技能，而不是特定任务的解决方案。DISCOVERYWORLD本身是一个廉价的、模拟的、基于文本的环境（可选配二维视觉叠加）。它包含120个不同的挑战性任务，涵盖八个主题，每个主题都有三个难度级别和几个参数变化。每个任务都需要主体形成假设，设计和运行实验，分析结果并根据结论采取行动。DISCOVERYWORLD进一步提供了三个自动评估性能的指标，分别基于（a）任务完成情况，（b）采取的任务相关行动，以及（c）发现的解释性知识。我们发现，在先前发表的环境中表现良好的强大基线主体在大多数DISCOVERYWORLD任务中都难以应对，这表明DISCOVERYWORLD捕捉到了一些发现方面的新挑战，因此DISCOVERYWORLD可能有助于加速主体科学发现能力的近期发展和评估。代码可在以下网址获取：www.github.com/allenai/discoveryworld

发布时间: 10/10/2024

查看原文

OMNI-EPIC：基于人类趣味概念模型和代码环境编程的开放性

作者: Maxence Faldor, Jenny Zhang, Antoine Cully, Jeff Clune

开放式和人工智能生成的算法旨在无限期地持续生成和解决日益复杂的任务，为实现更通用的人工智能提供了一条有希望的途径。为了实现这一宏伟愿景，学习必须发生在大量的潜在任务中。现有的自动生成环境的方法局限于人工预定义的、通常范围狭窄的环境分布，限制了它们创建任何学习环境的能力。为了解决这一限制，我们引入了一个新的框架OMNI-EPIC，它通过人类趣味概念模型（OMNI）和代码编程环境（EPIC）增强了先前在开放性方面的研究。OMNI-EPIC利用基础模型自主生成代码，指定下一个可学习的（即，对于智能体的当前技能水平来说既不太容易也不太难）且有趣（例如，有价值和新颖的）任务。OMNI-EPIC生成环境（例如，障碍课程）和奖励函数（例如，快速通过障碍课程而不接触红色物体），原则上使其能够创建任何可模拟的学习任务。我们展示了OMNI-EPIC惊人的创造力，它不断创新以提出新的、有趣的学习挑战。我们还强调了OMNI-EPIC如何适应强化学习智能体的学习进度，生成难度合适的任务。总的来说，OMNI-EPIC可以无限地创建可学习且有趣的环境，进一步推动自改进人工智能系统和人工智能生成算法的发展。项目网站（含视频）：https://dub.sh/omniepic

发布时间: 10/10/2024

查看原文

基于强化学习的视觉-语言大模型微调及其决策能力提升

作者: Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Yifei Zhou, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine

针对特定视觉指令遵循数据微调的大型视觉语言模型 (VLMs) 在各种场景中展现了令人印象深刻的语言推理能力。然而，这种微调范式可能无法有效地从交互式环境中学习多步骤目标导向任务中的最优决策代理。为了解决这一挑战，我们提出了一种利用强化学习 (RL) 微调 VLMs 的算法框架。具体来说，我们的框架提供任务描述，然后提示 VLM 生成思维链 (CoT) 推理，使 VLM能够有效地探索通向最终基于文本的动作的中间推理步骤。接下来，将开放式文本输出解析为可执行动作，以与环境交互以获得目标导向的任务奖励。最后，我们的框架使用这些任务奖励通过 RL 来微调整个 VLM。实证结果表明，我们提出的框架增强了 VLM 代理在各种任务中的决策能力，使 7b 模型的性能优于 GPT4-V 或 Gemini 等商业模型。此外，我们发现 CoT 推理是性能提升的关键组成部分，因为去除 CoT 推理会导致我们方法的整体性能显著下降。

发布时间: 10/10/2024

查看原文

游戏场景多样性度量

作者: Yuchen Li, Ziqi Wang, Qingquan Zhang, Bo Yuan, Xin Wang, Jialin Liu

这篇综述全面回顾了游戏场景多样性的多维度特性，重点介绍了程序内容生成和其他领域的创新应用，这些应用是通过多样化的游戏场景丰富玩家体验的基石。通过涵盖情感建模、多智能体系统和心理学研究等众多学科，我们的研究强调了多样化游戏场景在游戏和教育中的重要性。通过对多样性度量和评估方法的分类，我们旨在弥合文献和实践中的差距，为有效测量和整合游戏场景中的多样性提供见解。我们的分析强调了统一分类法的必要性，以帮助开发者和研究人员创建更引人入胜和多样化的游戏世界。这篇综述不仅为未来关于多样化游戏场景的研究指明了方向，也为寻求将多样性作为游戏设计和开发关键要素的行业从业者提供了一本手册。

发布时间: 10/10/2024

查看原文

数字人文研究中生成式人工智能工具的集体使用和认知：基于调查的结果

作者: Meredith Dedema, Rongqian Ma

生成式人工智能技术彻底改变了研究格局，对数字人文领域（一个与技术进步密切相关的领域）产生了重大影响。本文探讨了数字人文学者如何在研究中采用和批判性地评估生成式人工智能技术（如ChatGPT）。基于对一项国际调查研究中收集的76份回复，我们探讨了数字人文学者在研究中采用或不采用生成式人工智能工具的理由，确定了使用生成式人工智能工具支持各种数字人文研究任务的具体实践，并分析了学者们对在数字人文研究中使用生成式人工智能工具的益处、风险和挑战的集体认知。调查结果揭示了两个主要发现：首先，数字人文研究界对生成式人工智能在数字人文学术研究中的价值持有不同意见；其次，学者们已经发展出使用生成式人工智能工具的新实践和认知，这与传统基于人工智能的工具有所不同。我们的调查代表了对这一主题进行的首次基于调查的分析之一。它有可能成为未来关于生成式人工智能对数字人文学术影响的实证研究的基石。

发布时间: 10/10/2024

查看原文

道路图生成器：基于GPS数据绘制建筑工地道路地图

作者: Katarzyna Micha{\l}owska, Helga Margrete Bodahl Holmestad, Signe Riemer-S{\o}rensen

我们提出一种从GPS轨迹推断道路以构建施工现场地图的新方法。由于建筑机械的运动模式不稳定且非标准化，这与已建道路上的典型车辆交通明显不同，因此这项任务带来了独特的挑战。我们提出的方法首先识别道路网络中的交叉路口，这些交叉路口是关键的决策点，然后用边连接它们以生成一个图，该图随后可用于规划和任务分配。我们通过绘制挪威一个真实施工现场的道路来演示该方法。该方法在四个越来越复杂的图段上进行了验证。在我们的测试中，该方法在检测交叉路口和推断无噪声或低噪声数据中的道路方面达到了完美的准确性，而在噪声显著且GPS更新持续缺失的区域，其性能有所下降。

发布时间: 10/10/2024

查看原文

动物AI环境：比较认知和人工智能研究的虚拟实验室

作者: Konstantinos Voudouris, Ibrahim Alhas, Wout Schellaert, Matteo G. Mecattaf, Benjamin Slater, Matthew Crosby, Joel Holmes, John Burden, Niharika Chaubey, Niall Donnelly, Matishalin Patel, Marta Halina, Jos\'e Hern\'andez-Orallo, Lucy G. Cheke

动物AI环境：一个促进人工智能和比较认知研究合作的基于游戏的平台的最新版本，其包含互动按钮、奖励分配器和玩家通知等新功能，并改进了图形和处理，显著缩短了智能体训练时间并提升了人类玩家体验。本文详细介绍了如何利用动物AI环境构建计算和行为实验，并展示了包括最先进的深度强化学习智能体Dreamer-v3在内的一系列智能体在全新设计的测试和900个任务组成的动物AI测试平台上的结果（这些任务受到比较认知领域研究的启发）。动物AI环境为模拟人和非人类动物的认知以及构建生物启发的AI提供了一种新方法。

发布时间: 10/10/2024

查看原文