arXiv 论文列表

作者: Peijie Wang, Zhong-Zhi Li, Fei Yin, Xin Yang, Dekang Ran, Cheng-Lin Liu

arXiv:2502.20808v4 通知类型: 替换摘要：多模态大型语言模型（MLLMs）在各种数据集中的视觉上下文内的数学推理方面展示了令人鼓舞的能力。然而，现有的大多数多模态数学基准仅限于单个视觉上下文，这与真实世界中常见的多视觉场景相偏离。为解决这一差距，我们引入了MV-MATH：一个精心整理的数据集，包含2,009个高质量的数学问题。每个问题都结合了交错的图像和文本，来源于真实的K-12情景，并附有详细的注释。MV-MATH 包括多项选择题、自由作答题和多步题，覆盖了11个学科领域，共3个难度级别， serves作为评估MLLMs在多视觉上下文中的数学推理能力的全面而严格的基准。通过广泛的实验，我们观察到MLLMs在多视觉数学任务中遇到了巨大的挑战，与人类在MV-MATH上的能力相比，性能差距显著。此外，我们分析了各种模型的性能和错误模式，提供了关于MLLMs在多视觉设置下数学推理能力的见解。

发布时间: 3/25/2025

查看原文

从知识生成到知识验证：考察ChatGPT在生物医药生成能力方面的情况

作者: Ahmed Abdeen Hamed, Alessandro Crimi, Magdalena M. Misiak, Byung Suk Lee

arXiv:2502.14714v2 宣布类型：替换摘要：LLM模型的生成能力为加速任务提供了机会，但同时也引发了对其生成知识真实性的问题。为了解决这些问题，我们提出了一种计算方法，用于评估LLM生成的生物医学知识的精确性。该方法包括两个过程：生成以疾病为中心的关联，并利用生物医学本体的语义框架验证这些关联。使用ChatGPT作为选定的LLM，我们设计了提示工程过程，以建立疾病与其相关药物、症状和基因之间的联系，并评估了多个ChatGPT模型（例如，GPT-turbo、GPT-4等）之间的一致性。实验结果表明，在识别疾病术语（88%-97%）、药物名称（90%-91%）和遗传信息（88%-98%）方面具有高精度。然而，症状术语的识别率较低（49%-61%），这是因为症状描述的非正式和冗长性质，这妨碍了与专门本体的正式语言的有效语义匹配。验证关联结果显示，疾病-药物和疾病-基因配对的文献覆盖率范围为89%-91%，而与症状相关的关联的覆盖率较低（49%-62%）。

发布时间: 3/25/2025

查看原文

粗集理论在人工智能伦理与决策中的应用：一种粒度评估的数学框架

作者: Takashi Izumo

arXiv:2502.07347v5 宣告类型: 替换摘要：随着人工智能（AI）系统越来越多地嵌入到伦理敏感领域，如教育、医疗和交通中，如何在决策中平衡准确性和可解释性已成为一个核心问题。粗糙伦理（CE）是一种理论框架，它在认知和上下文限制条件下，证明了粗粒度评价，例如分数等级或警告标签，是伦理上适当的。然而，CE缺乏数学形式化。本文引入了粗糙集理论（CST），这是一种新颖的数学框架，通过完全有序结构和粗粒度划分来建模粗粒度决策。CST定义了集合之间的层次关系，并使用信息论工具，如相对熵（Kullback-Leibler Divergence），来量化简化和信息损失之间的trade-off。我们通过教育评分和可解释AI（XAI）的应用展示了CST，展示了它如何促进更透明和上下文相关的评价。通过将粗粒度评价根植于集合理论和概率推理，CST为可解释AI系统的伦理设计做出了贡献。这项工作将形式化方法与以人为本的伦理相结合，提供了一种原则性的方法来平衡可理解性、公平性和信息完整性。

发布时间: 3/25/2025

查看原文

Agent-R：通过迭代自我训练来反思的语言模型代理

作者: Siyu Yuan, Zehui Chen, Zhiheng Xi, Junjie Ye, Zhengyin Du, Jiecao Chen

arXiv:2501.11425v3 宣告类型：替换摘要：大型语言模型（LLMs）代理在处理交互环境中复杂任务方面的作用越来越关键。现有工作主要集中在通过行为克隆更强的专家来提升性能，然而，这些方法在实际应用中往往无法奏效，主要原因在于无法从错误中恢复。然而，获取步骤级批评数据既困难又昂贵。因此，自动化和动态构建自我批评数据集对赋予模型智能代理能力至关重要。在本文中，我们提出了一种迭代自我训练框架Agent-R，该框架使语言代理能够在飞行中自我反思。与传统的基于行为正确性进行奖励或惩罚的方法不同，Agent-R 利用MCTS（蒙特卡洛树搜索）构建训练数据，从错误轨迹中恢复正确的轨迹。代理反思的关键挑战在于需要及时修正，而不是等待整个模拟结束。为了解决这一问题，我们引入了一种基于模型的批评构建机制：动作模型在其当前能力范围内识别失败轨迹中的第一个错误步骤。从这个步骤开始，我们将它与相邻的正确路径拼接，两者共享树中的同一个父节点。这种策略使模型能够在当前策略的基础上学习反思，从而提高学习效率。为了进一步探索这种自我改进模式的扩展性，我们研究了错误校正能力和数据集构建的迭代改进。我们的研究结果表明，Agent-R 不断提升模型从错误中恢复的能力，并能够实现及时的错误修正。在三个交互环境中的实验表明，Agent-R 有效地使代理能够纠正错误行为，同时避免循环，与基准方法相比，性能提高了5.59%。

发布时间: 3/25/2025

查看原文

强化学习：全面综述

作者: Kevin Murphy

arXiv:2412.05265v2 宣告类型: 替换摘要: 本手稿提供了深度强化学习和顺序决策领域的大纲式、实时综述，涵盖了基于值的方法、策略梯度方法、基于模型的方法以及各种其他主题（例如多智能体强化学习、强化学习与大型语言模型以及强化学习与推理）。

发布时间: 3/25/2025

查看原文

TSPRank：通过双线性旅行推销员模型连接成对方法和列表方法

作者: Weixian Waylon Li, Yftah Ziser, Yifei Xie, Shay B. Cohen, Tiejun Ma

arXiv:2411.12064v3 宣布类型: 替换摘要：传统的学习排序（LETOR）方法，包括如RankNet和LambdaMART这样的成对方法，往往由于仅侧重于成对比较而无法获得最优的全局排名。相反，基于深度学习的成对优化方法虽然旨在优化整个列表，但需要复杂的调优，并且仅在鲁棒的成对模型基础上提供微小的改进。为克服这些限制，我们引入了旅行商问题排序（TSPRank），这是一种混合成对-列表式排序方法。TSPRank将排序问题重新表述为旅行商问题（TSP），这是一个广泛研究的组合优化挑战，因其多种解决方案算法和应用而受到重视。这种方法能够建模成对关系，并利用组合优化来确定列表式排名。这种方法可以直接集成到现有的骨干模型生成的嵌入中，以提高排名性能。我们在三个不同的骨干模型上的多项实验，涵盖包括股票排名、信息检索和历史事件排序在内的多种任务，表明TSPRank显著优于纯成对和列表式方法。我们的定性分析显示，TSPRank相对于现有方法的主要优势在于它在排序时更好地利用了全局信息的能力。TSPRank在不同领域的稳健性和出色性能突显了其作为一种通用而有效的LETOR解决方案的潜力。

发布时间: 3/25/2025

查看原文

形成辅助高置信度实例级损失以促进标签比例学习

作者: Tianhao Ma, Han Chen, Juncheng Hu, Yungang Zhu, Ximing Li

arXiv:2411.10364v2 宣告类型: 替换摘要：从袋标签比例（LDP）学习，即一个具有挑战性的弱监督学习任务，旨在通过使用实例包及其类的比例而非每个实例的标注标签来训练分类器。除了传统的袋级损失外，LDP的主要方法是通过伪标签引入辅助实例级损失，伪标签由预测形成。不幸的是，我们实证观察到伪标签由于过度平滑往往不准确，特别是在包大小较大的场景中，这损害了分类器的诱导。为了缓解这个问题，我们建议了一种新的LDP方法，即带有辅助高置信度实例级损失的从标签比例学习（L^2P-AHIL）。具体而言，我们提出了一种基于双重熵的权重（DEW）方法，以自适应地衡量伪标签的置信度。它同时强调准确的袋级预测，并避免过度平滑的预测。然后，我们使用DEW形成高置信度实例级损失，并以自我训练的方式与袋级损失联合优化。基准数据集上的实验结果显示，L^2P-AHIL 可以超过现有的基线方法，性能提升在包大小增加时更为显著。我们的方法的实现可在 https://github.com/TianhaoMa5/LLP-AHIL 获得。

发布时间: 3/25/2025

查看原文

注视奖励：眼球运动作为人类和AI决策在混合视觉觅食中的一种窗口

作者: Bo Wang, Dingwei Tan, Yen-Ling Kuo, Zhaowei Sun, Jeremy M. Wolfe, Tat-Jen Cham, Mengmi Zhang

arXiv:2411.09176v3 公告类型：替换摘要：设想在一个硬币集合中寻找25美分、10美分、5美分和1美分的硬币——一种混合觅食任务，观察者需寻找多种类型的多个目标。在这种任务中，目标的价值和出现频率如何影响觅食和眼球运动行为（例如，你应该优先寻找稀有的25美分硬币还是常见的5美分硬币）？为探索这一问题，我们进行了人类知觉生理学实验，揭示了人类擅长奖励觅食。他们的眼球注视点被更高平均奖励区域吸引，在更值钱的目标上注视的时间更长，累积奖励超过随机水平，接近最优觅食者的上限。为了探究人类的决策过程，我们开发了一个基于变换器的视觉觅食器（VF）模型，通过强化学习进行训练。VF模型接受一系列目标、它们相应的价值以及搜索图像作为输入，使用中心视野处理图像，并生成一系列眼球运动序列以及是否收集每个注视项目的决策。我们的模型在所有基线中表现最佳，累积奖励与人类相当，并在限时环境中近似人类的眼球运动和觅食偏好。此外，对新颖目标、未见价值和不同集合大小的离分布测试显示了VF模型的有效泛化能力。我们的工作为眼球运动与决策之间的关系提供了有价值的见解，我们的模型作为进一步探索这一联系的强大工具。所有数据、代码和模型均在https://github.com/ZhangLab-DeepNeuroCogLab/visual-forager上提供。

发布时间: 3/25/2025

查看原文

主动与反应约束编程在具有最大时间滞后的时间随机项目调度中

作者: Kim van den Houten, L\'eon Planken, Esteban Freydell, David M. J. Tax, Mathijs de Weerdt

arXiv:2409.09107v4 宣告类型: 替换摘要：本文研究了最大时间滞后下的随机资源约束项目调度问题（SRCPSP/max）的调度策略。最近在约束编程（CP）和时间网络方面的进展重新引起了人们对各种主动和反应性调度方法的优点和缺点评估的兴趣。首先，我们提出了一种新的基于CP的完全主动方法。其次，我们展示了如何使用在线重新调度程序构建一种反应性方法。第三，我们基于部分顺序调度使用了不确定性的时间网络（STNUs）。我们的统计分析表明，基于STNUs的算法在解决方案质量方面表现最佳，同时也显示出良好的相对离线和在线计算时间。

发布时间: 3/25/2025

查看原文

保留婴儿：在仲裁中使用AI的案例

作者: Michael Broyde, Yiyang Mei

arXiv:2408.11608v2 宣告类型：替换摘要：自2022年生成式人工智能（GenAI）问世以来，其模拟人类智能和生成内容的能力引发了兴奋和关注。虽然许多批评关注于AI可能 perpetuate 偏见、创造情绪不和谐、取代工作岗位以及引发伦理问题，但这些担忧往往忽略了AI的实际好处，特别是在法律领域的实际好处。本文探讨了AI在仲裁中的整合，认为虽然存在传统上的保留意见，但联邦仲裁法（FAA）允许双方通过合同选择AI驱动的仲裁。本文做出了三个关键贡献：（1）它将焦点从关于AI人格的争论转向整合AI到仲裁的实际方面，认为如果双方同意，AI可以有效担任仲裁员；（2）它将仲裁定位为更大范围内将AI引入法律领域的理想切入点，鉴于仲裁的灵活性及其给予当事方自由定义公平标准的权利；（3）它概述了未来研究方向，强调了实证比较AI和人类仲裁的重要性，这可能导致开发不同的系统。通过提倡在仲裁中使用AI，本文强调了尊重合同自由的重要性，并创造一个可以让AI潜力得到充分实现的环境。借助法官理查德·波斯ner的见解，本文认为在仲裁中AI的伦理义务应该在其技术优势和仲裁协议的自愿性质的背景下理解。最终，它呼吁以平衡和开放的头脑对待仲裁中的AI，认识到AI有潜力提升争端解决的效率、公平性和灵活性。

发布时间: 3/25/2025

查看原文