arXiv 论文列表

作者: Hsiang-Ting Chen, Yuan Zhang, Gustavo Carneiro, Rajvinder Singh

arXiv:2503.20790v1 交叉类型: 公告摘要: 尽管人工智能辅助结肠镜检查有望改善结直肠癌筛查，但其成功依赖于在临床实践中的有效集成，而不仅仅是算法的准确性。本文基于一项澳大利亚实地研究（观察和胃肠病学家访谈），强调了一个关键的脱节：当前的发展优先考虑机器学习模型性能，忽略了用户界面设计、工作流程集成和整体用户体验等重要方面。行业互动揭示了对数据和算法的相同重视。为了充分发挥人工智能的潜力，人机交互（HCI）社区必须倡导以用户为中心的设计，确保这些系统易于使用、支持内镜医生的专业技能，并改善患者结果。

发布时间: 3/28/2025

查看原文

基于大规模语言模型的自博弈与强化学习的 strategically Gomoku 系统

作者: Hui Wang

arXiv:2503.21683v1 宣布类型: 新摘要: 近年来，大型语言模型 (LLMs) 在自然语言处理 (NLP) 领域取得了显著进展，具备强大的生成、理解和推理能力。这些模型已在教育、智能决策和游戏等多个领域找到应用。然而，有效地利用 LLMs 进行五子棋的战略规划和决策仍是一项挑战。本研究旨在基于 LLMs 开发一个五子棋 AI 系统，模拟人类学习下国际象棋的进程。该系统旨在理解和应用五子棋策略和逻辑，以做出理性的决策。研究方法包括使模型能够“读棋盘”、“理解规则”、“选择策略”和“评估位置”，并通过自我对弈和强化学习增强其能力。研究结果表明，这种方法显著改善了移动位置的选择，解决了生成非法位置的问题，并通过并行位置评估减少了处理时间。经过广泛的自我对弈训练后，该模型的五子棋能力显著提高。

发布时间: 3/28/2025

查看原文

受认知科学启发的物体理解人工智能核心能力评估

作者: Danaja Rutar, Alva Markelius, Konstantinos Voudouris, Jos\'e Hern\'andez-Orallo, Lucy Cheke

arXiv:2503.21668v1 宣布类型: 新摘要: 我们世界模型的核心组件之一是“直观物理”——对物体、空间和因果关系的理解。这种能力使我们能够预测事件、规划行动并导航环境，所有这些都依赖于对物体概念的综合感知。尽管这一点很重要，但并没有单一、统一的物体概念解释，尽管有几个理论框架提供了见解。在本文的第一部分，我们对物体概念研究中的主要理论框架——格式塔心理学、活性认识论和发展心理学——进行了全面概述，并指出了每个框架赋予物体理解的核心能力，以及它们在生物体的世界模型构建中的功能性作用。鉴于物体概念在世界建模中的基础性作用，了解物体概念对于人工智能也同样至关重要。在本文的第二部分中，我们评估当前人工智能范式如何以及在多大程度上采用和测试物体概念能力，与认知科学中的能力相比较。我们定义一个人工智能范式为关于物体概念如何被构想、研究物体概念所使用的方法、所利用的数据以及评估方法的组合。我们发现，虽然基准可以检测到人工智能系统建模了物体概念的孤立方面，但基准无法检测到这些能力之间的功能整合缺失，因此无法全面解决物体概念挑战。最后，我们探讨了与本文中提出的集成的物体概念愿景相一致的新颖评估方法。这些方法是朝着从孤立的物体能力向在真实世界背景下具有真正物体理解的通用人工智能迈进的有希望的方法。

发布时间: 3/28/2025

查看原文

解锁过去研究的潜力：使用生成AI重构医疗模拟模型

作者: Thomas Monks, Alison Harper, Amy Heather

arXiv:2503.21646v1 发表类型: 新论文摘要：事件离散仿真（DES）在医疗卫生运筹学中被广泛使用，但这些模型本身很少被共享。这限制了它们在建模和医疗卫生社区中被重新使用和长期影响的潜力。这项研究探讨了使用生成人工智能（AI）基于学术期刊提供的描述使用免费开源软件（FOSS）重建发布模型的可能性。采用结构化的研究方法，我们成功地生成、测试并内部重建了两个DES模型，包括用户界面。对于一个模型，结果得到了复制，但另一个模型没有，这可能是因为分布信息缺失。这些模型比目前发布的AI生成的DES模型更为复杂。鉴于我们在提示工程、代码生成和模型测试方面遇到的挑战，我们得出结论，我们的模型开发迭代方法、系统比较和测试以及团队的专业知识对于重建的仿真模型的成功是必要的。

发布时间: 3/28/2025

查看原文

向完全自动化的温室控制决策系统迈进：挑战与机遇

作者: Yongshuai Liu, Taeyeong Choi, Xin Liu

arXiv:2503.21640v1 宣布类型: 新摘要: 机器学习在各种应用（例如游戏、机器人技术等）中成功地构建了控制策略，将复杂系统引导到所需的状态。具体来说，可以自动优化策略中的多个参数，从环境的观察中获取信息，生成一系列决策以实现最佳性能。在本文综述论文中，我们特别探讨了此类策略学习技术在另一种独特的实用案例场景——农业中的应用，其中必须及时做出关键决策（例如供水、加热等），以最小化风险（例如植物受损）同时最大化收益（例如健康作物）在最终结果。我们首先提供了最新的研究综述，不仅识别出特定领域的挑战和机遇，还提出了潜在解决方案，其中一些被建议作为未来研究有前途的方向。此外，我们还介绍了我们的成功方法，在“第三届自主温室挑战赛”中，我们团队在46支队伍中排名第二，通过这个特定案例讨论了设计自主农场管理系统时需要考虑的重要事项。

发布时间: 3/28/2025

查看原文

UI-R1: 通过强化学习增强GUI代理的动作预测

作者: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

arXiv:2503.21620v1 宣布类型: 新摘要: 近期的 DeepSeek-R1 通过基于规则的强化学习 (RL) 展现了语言模型 (LLM) 的推理能力。在此基础上，我们首次探索基于规则的 RL 如何增强多模态大型语言模型 (MLLM) 在图形用户界面 (GUI) 动作预测任务中的推理能力。为此，我们精心收集了一个包含 136 个挑战性任务的小型但高质量的数据集，涵盖了移动设备中的五种常见动作类型。我们还引入了一个统一的基于规则的动作奖励，使得可以通过策略优化算法（如群体相对策略优化 GRPO）进行模型优化。实验结果表明，我们提出的数据高效模型 UI-R1-3B 在领域内 (ID) 和领域外 (OOD) 任务上均实现了显著的改进。具体来说，在领域内基准 AndroidControl 中，动作类型准确率提高了 15%，而语义准确率提高了 10.3%，相比于基模型（即 Qwen2.5-VL-3B）。在领域外 GUI 语义基准 ScreenSpot-Pro 中，我们的模型超越了基模型 6.0%，并且在与更大规模模型（如 OS-Atlas-7B）相竞争的性能上表现良好，后者是通过 76,000 个数据的监督微调 (SFT) 训练的。这些结果凸显了基于规则的强化学习在提升 GUI 理解和控制方面的潜力，为该领域的未来研究铺平了道路。

发布时间: 3/28/2025

查看原文

GenEdit：累积运算符与持续改进以应对企业中的文本到SQL转换

作者: Karime Maamari, Connor Landy, Amine Mhedhbi

arXiv:2503.21602v1 宣告类型: 新摘要: 受大型语言模型推动的Text-to-SQL的最近进步正在民主化数据访问。尽管如此，由于需要捕获业务特定知识、处理复杂查询并满足持续改进的期望，企业部署仍然充满挑战。为了应对这些挑战，我们设计并实现了GenEdit：一种随着用户反馈而改进的Text-to-SQL生成系统。GenEdit构建并维护了一个公司特定的知识集，采用了一种操作流水线分解SQL生成，并使用反馈更新其知识集以改进未来的SQL生成。我们描述了由两个核心模块构成的GenEdit架构：（i）分解SQL生成；（ii）基于用户反馈的知识集编辑。在生成方面，GenEdit利用复合操作符提高知识检索并创建一个引导生成的过程链式思考步骤。在初始检索阶段，GenEdit根据原始SQL查询分解成子语句、子句或子查询来检索相关示例。然后，它还检索指令和模式元素。利用检索到的上下文信息，GenEdit以自然语言生成逐步计划，说明如何生成查询。最后，GenEdit使用该计划生成SQL，从而减少对模型推理的需求，从而增强复杂SQL生成。如果必要，GenEdit将根据语法和语义错误重新生成查询。知识集编辑通过一个交互式副驾提出，允许用户迭代其反馈并根据需要重新生成SQL查询。每次生成都使用分阶段编辑更新生成提示。一旦反馈提交，它会通过回归测试并获得批准后合并，从而提高未来的生成质量。

发布时间: 3/28/2025

查看原文

debug-gym: 一个基于文本的环境用于交互式调试

作者: Xingdi Yuan, Morgane M Moss, Charbel El Feghali, Chinmay Singh, Darya Moldavskaya, Drew MacPhee, Lucas Caccia, Matheus Pereira, Minseon Kim, Alessandro Sordoni, Marc-Alexandre C\^ot\'e

arXiv:2503.21557v1 通告类型: 新增摘要: 大型语言模型（LLMs）在编码任务中的应用越来越广泛，但在大多数情况下，假设所有相关的信息都可以通过上下文访问或与它们的训练数据相匹配。我们认为，LLMs 可以从具有交互式探索代码库的能力中获益，以便收集对其任务相关的信息。为了实现这一目标，我们提出了一种文本环境，名为 debug-gym，用于在交互式编程环境中开发基于LLM的代理。我们的环境轻量级，并提供了一系列有用的工具，例如 Python 调试器（pdb），旨在促进基于LLM的代理的交互式调试。除了编码和调试任务外，这种方法还可以泛化到其他可以通过LLM代理的信息寻求行为获益的任务。

发布时间: 3/28/2025

查看原文

程序化内容生成基准：面向游戏生成挑战的开源测试平台

作者: Ahmed Khalifa, Roberto Gallotta, Matthew Barthet, Antonios Liapis, Julian Togelius, Georgios N. Yannakakis

arXiv:2503.21474v1 生成类型: 新摘要: 本文介绍了程序内容生成基准，用于评估不同游戏内容创作任务上的生成算法。基准包含12个与游戏相关的问题，每个问题有多变种。问题从创建不同类型的关卡到创建简单街机游戏的规则集不等。每个问题都有自己内容表示、控制参数以及用于质量、多样性和可控性的评估指标。此基准旨在朝着标准化比较生成算法的方向迈出第一步。我们使用该基准对三种基线算法进行了评分：随机生成器、进化策略和遗传算法。结果表明，某些问题比其他问题更容易解决，同时所选目标对生成的成品的质量、多样性和可控性的影响也得到了体现。

发布时间: 3/28/2025

查看原文

图到视觉：利用视觉-语言模型的多图理解与推理

作者: Ruizhou Li, Haiyun Jiang

arXiv:2503.21435v1 公告类型: 新摘要: 图神经网络（GNNs），作为图结构学习的主要范式，长期以来一直面临着计算复杂性指数级增长和跨场景泛化能力不足的双重挑战。随着多模态学习的迅速发展，视觉-语言模型（VLMs）展示了出色的跨模态关系推理能力和泛化能力，从而为克服传统图学习范式固有的局限性开辟了新的途径。然而，当前的研究主要集中在研究VLMs在单一图推理方面的能力，这从根本上未能解决在实际应用场景中跨多个异构图数据进行协调推理的关键需求。为了解决这些限制，我们首次提出了针对VLMs的多图联合推理基准。该基准包含四种图类别：知识图、流程图、思维导图和路线图，每组图伴随着三个逐步增加难度的指令-响应对。通过利用这一基准，我们对最先进的VLMs进行了全面的能力评估，并在开源模型上进行了微调。本研究不仅填补了VLMs在多图推理方面的评估空白，还实证验证了它们在图结构学习中的泛化优势。

发布时间: 3/28/2025

查看原文