arXiv 论文列表

作者: Zihe Ran, Xiyu Li, Qing Xiao, Xianzhe Fan, Franklin Mingzhe Li, Yanyun Wang, Zhicong Lu

arXiv:2502.09866v1 宣告类型: cross 摘要: 随着盲视和低视力（BLV）玩家越来越多地参与游戏，无障碍功能变得至关重要。尽管一些研究探讨了提高游戏无障碍性的工具和策略，但这些玩家在移动游戏中的具体体验却鲜有研究。本研究通过调查不同无障碍水平的移动游戏对BLV用户的游戏体验来弥补这一空白。通过与32位经验丰富的BLV移动游戏玩家进行访谈，我们探讨了他们对游戏的看法、面临的挑战以及参与移动游戏的策略。研究发现，BLV玩家转向移动游戏是为了缓解无聊、获得成就感以及建立社交联系，但在不同无障碍水平的游戏面前会面临不同的障碍。我们还将移动游戏与其他形式的游戏进行比较，强调移动游戏相对于其他形式游戏的优势，例如智能手机的固有无障碍性。本研究有助于理解BLV移动游戏体验，并为提升无障碍移动游戏设计提供见解。

发布时间: 2/17/2025

查看原文

自动假设验证与代理性序列证伪

作者: Kexin Huang, Ying Jin, Ryan Li, Michael Y. Li, Emmanuel Cand\`es, Jure Leskovec

arXiv:2502.09858v1 假设类型: 横跨多个领域摘要：假设在信息获取、决策制定和发现中起着核心作用。然而，许多实际中的假设都是抽象的高层陈述，直接验证它们非常困难。这种挑战在大型语言模型（LLMs）生成假设的情况下进一步加剧，LLMs容易产生幻觉，会生成大量的假设，使得人工验证变得不切实际。在这里，我们提出了一种名为Popper的代理框架，用于严格自动验证自由格式的假设。该框架受到卡尔·波普尔证伪原则的指导，使用LLM代理设计并执行针对假设可验证影响的证伪实验。一种新颖的顺序测试框架确保了严格的第一类错误控制，同时积极收集来自各种观察结果的证据，无论是现有数据还是新进行的操作。我们在生物学、经济学和社会学等领域演示了Popper。Popper提供了稳健的错误控制、高功效和可扩展性。此外，与人类科学家相比，Popper在验证复杂的生物学假设方面表现相当，但时间减少了十倍，提供了一种可扩展和严谨的假设验证解决方案。

发布时间: 2/17/2025

查看原文

通过反转强化学习在小型语言模型中实现高效的多任务学习

作者: Yu-Chen Lin, Sanat Sharma, Hari Manikandan, Jayant Kumar, Tracy Holloway King, Jing Zheng

arXiv:2502.09854v1 宣传类型：交叉摘要：在这项工作中，我们证明了小型语言模型（SLMs），特别是100M参数的GPT-2模型，在多任务提示生成任务中能够达到与大型语言模型（LLMs）相当的性能，但只需要后者的极小一部分计算资源。通过一种新颖的倒置强化学习结合来自强大力量的LLM——Llama-3的合成数据提炼，我们训练了一个SLM，尽管该模型的规模最多小了80倍，仍能达到与最先进的模型（包括Llama-3、Qwen2和Mistral）相近的相关性得分，使其非常适合资源受限和实时应用。这项研究突显了SLMs在多模态环境下的高效多任务学习潜力，提供了在可扩展和低延迟部署方面LLMs的有希望的替代方案。

发布时间: 2/17/2025

查看原文

HealthGPT：一种通过异构知识适应实现统一理解和生成的大规模视觉-语言模型

作者: Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi

arXiv:2502.09838v1 跨领域类型：交叉学科摘要：我们介绍了HealthGPT，这是一种强大的医学视觉-语言模型（Med-LVLM），在其统一的自回归框架中融合了医学视觉理解与生成能力。我们的自举哲学是逐步将异构的理解和生成知识适应预训练的大语言模型（LLMs）。这一目标通过一种新颖的异构低秩适应（H-LoRA）技术实现，该技术与定制的分层次视觉感知方法和三阶段学习策略相辅相成。为了有效地学习HealthGPT，我们设计了一个综合的医学领域特定的视觉-语言理解和生成数据集，名为VL-Health。实验结果展示了HealthGPT在医学视觉统一任务中出色的表现和可扩展性。我们的项目可以在 https://github.com/DCDmllm/HealthGPT 获取。

发布时间: 2/17/2025

查看原文

多任务机器人策略的高效评估与主动实验选择

作者: Abrar Anwar, Rohan Gupta, Zain Merchant, Sayan Ghosh, Willie Neiswanger, Jesse Thomason

arXiv:2502.09829v1 评估类型：交叉摘要：评估学习到的机器人控制策略以确定它们在物理任务层面的能力需要实验者花费大量时间和精力。随着策略和任务数量的增长，这一问题变得更为严重。测试每一个策略在每一个任务上多次是不切实际的；每次试验都需要手动重置环境，而每改变一个任务则需要重新布置物体甚至更换机器人。随机选择一个子集的策略和任务进行评估是一种高成本的解决方案，且结果不可靠、不完整。在此项工作中，我们以积极的测试问题形式将机器人评估问题进行建模。我们建议在顺序执行实验过程中建模所有任务和策略下的机器人表现分布。任务之间通常具有相似性，能够揭示策略行为中的潜在关联，并展示了自然语言在建模这些任务间关系中的有用性。然后，我们利用这一建模形式通过使用带有成本意识的期望信息增益启发式方法来高效地选择信息丰富的试验，从而降低实验者的劳动强度。我们的框架既适用于连续表现结果，也适用于离散表现结果。我们在现实机器人和模拟中的现有评估数据上进行了实验。通过优先选择信息丰富的试验，我们的框架能够减少对多项任务上机器人策略评估指标计算的成本。

发布时间: 2/17/2025

查看原文

一种求解器辅助的层次化语言，用于基于大语言模型的CAD设计

作者: Benjamin T. Jones, Felix H\"ahnlein, Zihan Zhang, Maaz Ahmad, Vladimir Kim, Adriana Schulz

arXiv:2502.09819v1 宣告类型：交叉摘要：大规模语言模型（LLMs）在解决各种结构化和非结构化生成任务方面取得了巨大成功，但在计算机辅助设计（CAD）中生成过程几何图形方面却遇到困难。这些困难源于它们无法进行空间推理，以及需要通过复杂的长距离规划来生成复杂几何图形的必要性。我们通过引入一种称为AIDL的解算器辅助、分层领域专用语言（DSL），使生成性CAD设计成为可能，从而将空间推理要求转移到几何约束解算器上。此外，我们还展示了在少量示例模式下，AIDL在生成更接近提示的视觉结果以及创建更易于后期处理和推理的对象方面甚至优于带训练数据的语言（OpenSCAD）。

发布时间: 2/17/2025

查看原文

AgentGuard：重新利用行动代理 orchestrator 用于工具 orchestration 的安全性评估

作者: Jizhou Chen, Samuel Lee Cong

arXiv:2502.09809v1 公告类型: cross 摘要：将工具使用集成到大型语言模型（LLMs）中，使具备现实世界影响的自主系统成为可能。与此同时，与独立运行的LLMs不同，被篡改的代理可以执行更具重大影响的恶意工作流，这表现在其工具使用能力上。我们提出了一种名为AgentGuard的框架，该框架能够自主发现并验证不安全的工具使用工作流，然后生成安全约束来限制代理的行为，从而在部署时实现基本的安全保障。AgentGuard利用LLM调度器固有的能力——工具功能知识、可扩展且真实的流程生成以及工具执行权限——充当其自身的安全性评估器。该框架通过四个阶段运作：识别不安全的工作流、在实际执行中验证它们、生成安全约束，以及验证约束的有效性。其输出包括不安全工作流的评估报告、测试用例以及验证过的约束，这些可以用于多种安全应用。我们通过实验实证性地展示了AgentGuard的可行性。通过这项探索性工作，我们希望激发对LLM代理进行标准化测试和强化程序的建立，以增强其在实际应用中的可信度。

发布时间: 2/17/2025

查看原文

急性淋巴细胞白血病诊断运用YOLOv11、YOLOv8、ResNet50和Inception-ResNet-v2深度学习模型

作者: Alaa Awad, Salah A. Aly

arXiv:2502.09804v1 交叉公告类型：cross 摘要：每年都有数千人因白血病而丧生。随着人工智能驱动技术的不断演进和进步，它们的应用性和可靠性问题仍未得到解决。本研究旨在利用图像处理和深度学习方法，利用最能代表现实场景的数据，实现急性淋巴细胞白血病（ALL）检测的世界领先成果。ALL 是几种类型的血液癌症之一，是一种具有侵袭性的白血病。在本研究中，我们探讨了 ALL 检测的最新进展，以及 YOLO 系列的最新版本及其性能。我们探讨了白细胞是恶性的还是良性的问题。此外，所提出的模型可以识别不同的 ALL 阶段，包括早期阶段。而且，这些模型可以检测到血母细胞，尽管它们经常被误分类为 ALL。通过利用先进的深度学习模型，如 YOLOv8、YOLOv11、ResNet50 和 Inception-ResNet-v2，该研究实现了高达 99.7% 的准确率，展示了这些算法在多个数据集和各种现实场景中的有效性。

发布时间: 2/17/2025

查看原文

与K12教育工作者共同设计基于项目的大型语言模型工具

作者: Prerna Ravi, John Masla, Gisella Kakoti, Grace Lin, Emma Anderson, Matt Taylor, Anastasia Ostrowski, Cynthia Breazeal, Eric Klopfer, Hal Abelson

arXiv:2502.09799v1 类别: cross 摘要：生成式AI的出现，尤其是大型语言模型（LLMs），为以学生为中心和主动学习方法，如项目式学习（PBL）打开了大门。然而，PBL 对教育者在项目设计和管理、评估以及平衡学生指导与自主性方面提出了实际实施的挑战。以下研究记录了与跨学科K-12教师的合作设计过程，以探索并解决他们目前面临的PBL挑战。通过以教师为主导的访谈、合作研讨会和迭代的框架设计，我们收集了证据，展示了LLMs如何通过自动化常规任务和支持个性化学习来帮助教师实施高质量的PBL教育方法。研究中的教师主张支持他们的专业成长，增强他们目前的角色而不会取代他们。他们还指出了课堂整合方面的机遇与挑战，包括资源需求和限制、伦理关切以及潜在的短期和长期影响。基于这些发现，我们提出了未来在PBL中部署LLM工具的设计指南。

发布时间: 2/17/2025

查看原文

基于LLM的新闻推荐系统综述

作者: Rongyao Wang, Veronica Liesaputra, Zhiyi Huang

arXiv:2502.09797v1 宣告类型：交叉摘要：新闻推荐系统在缓解信息过载问题方面发挥着关键作用。近年来，由于大型语言模型技术的成功应用，研究人员利用区分型大型语言模型（DLLMs）或生成型大型语言模型（GLLMs）来改进新闻推荐系统的性能。尽管有几项最近的综述性研究审查了基于深度学习的新闻推荐系统面临的重大挑战，如公平性、隐私保护和责任感，但对于基于大型语言模型（LLMs）的新闻推荐系统却缺乏系统的综述。为了系统地回顾不同的核心方法并探讨潜在问题，我们将区分型和生成型大型语言模型新闻推荐系统归类为基于大型语言模型的新闻推荐系统。在本文综述中，我们首先概述了基于深度学习的新闻推荐系统的发展。然后，我们根据三个方面——新闻导向建模、用户导向建模和预测导向建模——回顾了基于大型语言模型的新闻推荐系统。接下来，我们从多个角度审视了挑战，包括数据集、基准工具和方法论。此外，我们进行了广泛的实验，以分析大型语言模型技术如何影响不同新闻推荐系统的性能。最后，我们全面探讨了在大型语言模型时代的基于大型语言模型的新闻推荐未来方向。

发布时间: 2/17/2025

查看原文