arXiv 论文列表

作者: Kristen M. Edwards, Farnaz Tehranchi, Scarlett R. Miller, Faez Ahmed

arXiv:2504.00938v1 宣布类型: 新摘要: 早期工程设计的主观评估，如概念草图，传统上依赖于人类专家。然而，专家评估耗时、昂贵且有时不一致。近期视觉-语言模型（VLMs）的进展提供了自动化设计评估的可能性，但至关重要的是要确保这些AI“裁判”能够与人类专家相媲美。然而，目前没有现成的框架评估专家等效性。本文介绍了一种严谨的统计框架，用于确定AI裁判的评分是否与人类专家的评分相符。我们在一个案例研究中应用了这一框架，评估了四种基于VLM的裁判在关键设计指标（独特性、创造力、实用性和绘图质量）上的表现。这些AI裁判采用了各种上下文相关学习（ICL）技术，包括单模态与多模态提示以及推理时的推理。同样的统计框架也被用于评估三位训练有素的新手的专家等效性。结果表明，使用基于文本和图像的ICL并进行推理的顶级AI裁判在独特性和绘图质量上的评分达到了专家级别的一致性，并在所有指标上优于或与训练有素的新手持平。在6/6次对独特性和创造力的测试中，以及5/6次对绘图质量和实用性的测试中，它的评分与专家的符合度与大多数训练有素的新手相当或更高。这些发现表明，支持推理的VLM模型可以在设计评估中达到人类专家的水平。这在教育和实践中的设计评估扩展方面具有重要意义，并为其他需要主观内容评估的领域提供了一般统计框架以验证AI裁判。

发布时间: 4/2/2025

查看原文

将多模态LLMs接地至需通过强化学习寻求帮助的实体代理

作者: Ram Ramrakhya, Matthew Chang, Xavier Puig, Ruta Desai, Zsolt Kira, Roozbeh Mottaghi

arXiv:2504.00907v1 通告类型: 新论文摘要：在现实世界环境中运作的类人智能体必须解释含糊不清和不明确的人类指令。一个能干的家庭机器人应该能够识别含糊不清并提出相关澄清问题，以准确推断用户意图，从而更有效地执行任务。为研究这一问题，我们引入了“询问以行动”任务，即在家庭环境中，类人智能体必须根据含糊的指令获取特定对象实例。智能体必须在部分可观测性下战略性地提出最小但相关的澄清问题来解决含糊性。为解决这一问题，我们提出了一种新方法，通过使用在线强化学习（RL）和由大语言模型（LLM）生成的奖励，微调多模态大语言模型（MLLM）作为视觉-语言-动作（VLA）策略。我们的方法去除了对大规模人工演示或手工工程化奖励的需要，以训练此类智能体。我们在我们的任务上对比了强大的零样本基线，包括GPT-4o和监督微调的MLLM。我们的结果表明，我们的RL微调MLLM在所有基线中取得了显著的性能提升（19.1%至40.3%），并很好地泛化到新的场景和任务。据我们所知，这是首次证明通过在线RL使用LLM生成的奖励作为VLA代理能够执行和寻求帮助的方法。

发布时间: 4/2/2025

查看原文

Agent S2: 一种计算机使用代理的组合通用-专门框架

作者: Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang

arXiv:2504.00906v1 宣告类型: 新摘要: 计算机使用代理通过直接与计算机和移动设备上的图形用户界面(GUI)进行交互来自动化数字任务，为通过完成开放的空间用户查询来提高人类生产效率提供了巨大的潜力。然而，当前的代理面临着重大挑战：GUI元素的不精确对齐、长时任务规划的困难，以及依赖单一通用模型进行多种认知任务所带来的性能瓶颈。为此，我们提出了Agent S2，这是一种新的组合理论框架，可以跨越各种通用和专用模型分派认知责任。我们提出了一种新颖的混合对齐技术，以实现精确的GUI定位，并引入了主动分层规划，根据不断演变的观察结果在多个时间尺度上动态细化行动计划。评估结果证明，Agent S2在三个著名计算机使用基准测试上建立了新的最佳性能(SOTA)。具体来说，Agent S2在OSWorld 15步和50步评估上分别相对于领先的基线代理Claude Computer Use和UI-TARS实现了18.9%和32.7%的相对改进。此外，Agent S2有效地泛化到其他操作系统和应用程序，在WindowsAgentArena上超过之前的方法52.8%，在AndroidWorld上相对提高16.52%。代码可在https://github.com/simular-ai/Agent-S获得。

发布时间: 4/2/2025

查看原文

探究大型语言模型在数学问题解决中诊断学生认知技能的效果

作者: Hyoungwook Jin, Yoonsu Kim, Dongyun Jung, Seungju Kim, Kiyoon Choi, Jinho Son, Juho Kim

arXiv:2504.00843v1 通告类型: 新摘要: 数学学习涉及掌握内容知识以及理解和应用这些知识的认知处理能力。自动数学评估主要侧重于通过发现文本证据（如具体数字、公式和陈述）来评估学生的内容知识展示。最近，在大型语言模型（LLMs）解决问题、图像识别和推理能力方面取得的进展显示出对学生认知技能进行精细评估的潜力。诊断认知技能需要超越文本证据推断学生的思维过程，这是基于LLM的自动评估中一个尚未充分探索的任务。在本文中，我们研究了当前最先进的LLMs如何诊断学生的数学认知技能。我们构建了MathCog，这是一个新的基准数据集，包含110个中学数学问题的学生回答，每个问题由教师详细诊断并基于认知技能检查表注解。使用MathCog，我们评估了来自不同供应商的16种封闭和开放式LLM，包括不同模型大小的版本。我们的评估显示，即使最先进的LLMs也难以应对这个任务，所有F1分数均低于0.5，且在错误情况下表现出强烈的虚假自信（$r_s=.617$）。我们还发现，模型大小与诊断性能正相关（$r_s=.771$）。最后，我们讨论了这些发现的意义、过高的自信心问题以及改进自动认知技能诊断的方向。

发布时间: 4/2/2025

查看原文

基于示例的概念分析框架for深度天气预报模型

作者: Soyeon Kim, Junho Choi, Subeen Lee, Jaesik Choi

arXiv:2504.00831v1 举报类型: 新闻摘要: 为了提高AI模型的可信度，找到其推理过程的一致且可理解的表示至关重要。在飞机驾驶等高风险操作中，识别潜在的气象机制与预测的准确性一样重要。尽管已经有大量的文献通过可解释AI解决了这一问题，但它们的解决方案往往由于其以AI为中心的开发而受到限制。为填补这一空白，我们采用用户为中心的过程开发了一个基于实例的概念分析框架。该框架识别出与目标模型中的目标实例具有类似推理过程的案例，并以用户可理解的格式呈现。我们的框架为用户提供视觉和概念上相似的示例，包括概念分配的概率，以解决天气机制的模糊性。为弥合从模型中识别出的向量表示与人类可理解的解释之间的差距，我们编制了一个由人类标注的概念数据集，并实现了一个用户界面，以协助参与框架开发的领域专家。

发布时间: 4/2/2025

查看原文

基于可解释人工智能的天气预报模型接口系统

作者: Soyeon Kim, Junho Choi, Yeji Choi, Subeen Lee, Artyom Stitsyuk, Minkyoung Park, Seongyeop Jeong, Youhyun Baek, Jaesik Choi

arXiv:2504.00795v1 机器学习 (ML) 在气象决策中的应用正变得越来越流行。虽然解释性人工智能 (XAI) 的文献一直在稳步增长，但以用户为中心的 XAI 研究尚未扩展到这一领域。本研究通过用户研究，为气象中的黑盒模型解释定义了三个要求：统计模型在不同降雨情景下的性能以识别模型偏差、模型推理以及模型输出的信心。将合适的 XAI 方法映射到每个要求，并对生成的解释进行定量和定性测试。基于用户反馈设计了一个 XAI 用户界面系统。结果显示，这些解释增加了决策的有效性并提高了用户信任。用户更偏好直观的解释，即使是对可能容易识别的示例也更倾向于基于 XAI 算法的解释。这些发现可以为未来以用户为中心的 XAI 算法研究提供证据，同时也可以为改进实践中的人工智能系统的可用性提供基础。

发布时间: 4/2/2025

查看原文

我们需要这么多样本吗？多语言模型重复采样高效扩展测试时计算

作者: Jianhao Chen, Zishuo Xun, Bocheng Zhou, Han Qi, Qiaosheng Zhang, Yang Chen, Wei Hu, Yuzhong Qu, Wanli Ouyang, Shuyue Hu

arXiv:2504.00762v1 Announce Type: 新摘要：本文提出了一种简单、有效且成本效益高的策略，通过扩展测试时的计算量来提高大型语言模型（LLM）的性能。该策略建立在重复抽样和投票的框架之上，另有创新之处：即使使用较弱的模型，也能利用它们从多样化训练数据和范式中产生的潜在互补优势。通过一致性作为信号，我们的策略能够动态地在不同模型之间切换。理论分析强调了我们策略的效率和性能优势。在六个数据集上的广泛实验表明，我们的策略不仅优于自我一致性以及最先进的多代理辩论方法，还显著降低了推理成本。此外，ModelSwitch 只需少量可比的 LLM 即可实现最佳性能，并且可以通过验证方法扩展，展示了在生成-验证范式中利用多个 LLM 的潜力。

发布时间: 4/2/2025

查看原文

基于LLM的自主代理的人格驱动决策-making

作者: Lewis Newsham, Daniel Prince

arXiv:2504.00727v1 Announce Type: 新摘要：大型语言模型（LLMs）嵌入到自主代理中是一个迅速发展的领域，这使得代理能够实现动态的、可配置的行为，无需进行大量的领域特定训练。在我们之前的工作中，我们介绍了SANDMAN，这是一种利用五因素OCEAN人格模型的欺骗性代理架构，证明了人格诱导显著影响代理的任务规划。基于这些发现，本文提出了一种新的方法来测量和评估诱导的人格特质如何影响基于LLM的代理的任务选择过程，特别是规划、调度和决策过程。我们的结果揭示了与诱导的OCEAN属性相一致的任务选择模式，强调了为积极的网络防御策略设计高度可信的欺骗性代理的可能性。

发布时间: 4/2/2025

查看原文

负责任且可信赖的教育数据挖掘：符号方法、次符号方法和神经符号方法的比较

作者: Danial Hooshyar, Eve Kikas, Yeongwook Yang, Gustav \v{S}\'ir, Raija H\"am\"al\"ainen, Tommi K\"arkk\"ainen, Roger Azevedo

arXiv:2504.00615v1 宣告类型: 新摘要: 鉴于对负责和可信赖的教育人工智能的需求，本研究从泛化能力和可解释性的角度评估了符号、次符号和神经符号人工智能（NSAI）。我们在平衡和不平衡的自我调控学习数据集上进行了详细的实验，这些数据集来自爱沙尼亚小学生，预测的是七年级数学国家考试的表现。结果显示，符号和次符号方法在平衡数据集上表现出色，但在不平衡数据集上难以识别低成就者。有趣的是，符号和次符号方法在决策中强调的因素不同：符号方法主要依赖于认知和动机因素，而次符号方法则更加关注认知方面，学习的知识以及人口统计变量性别——但两者很大程度上都忽略了元认知因素。另一方面，NSAI方法表现出以下优势：(i) 在平衡数据集和不平衡数据集中都具有更强的泛化能力，因为其符号知识组件弥补了代表不足的类别；(ii) 在决策中依赖于一个更综合的因素集，包括动机、(元)认知和已学习的知识，从而提供了一个全面而理论基础坚实的可解释性框架。这些对比的研究结果强调了在仅依据预测性能下得出结论之前，需要对人工智能方法进行全面的比较的必要性。它们还强调了混合的人性化设计NSAI方法的潜力，以解决其他人工智能家族的局限性，并更接近负责的人工智能教育。具体而言，通过使利益相关者能够参与人工智能设计，NSAI将学习到的模式与理论构念对齐，纳入动机和元认知等因素，从而加强了教育数据分析的可靠性和责任性。

发布时间: 4/2/2025

查看原文

LLM 引导的删除纠错码搜索

作者: Franziska Weindel, Reinhard Heckel

arXiv:2504.00613v1 Announce Type: 新摘要：寻找最大规模的删除校正码超过70年一直是开放问题，即使对于单个删除也是如此。在本文中，我们提出了一种新的方法来构造删除校正码。一个码是由满足某些约束条件的序列集合构成的，我们通过根据优先级函数贪心地添加优先级最高的序列来构建它。为了找到好的优先级函数，我们利用了Romera等人于2024年提出的由大型语言模型（LLM）指导的进化搜索FunSearch。FunSearch会迭代生成、评估和精化优先级函数，以构建大规模的删除校正码。对于单个删除，我们的进化搜索找到了构造出已知最大规模的函数，达到最大（猜想最优的）范沙莫夫-特内戈尔茨码大小，即使最大值未知，也独立地以等效形式重新发现它们。对于两个删除，我们找到了构造出新最佳规模的函数，对于码长 $ n = 12, 13 $ 和 $ 16 $，建立了改进的下界。这些结果展示了LLM指导的搜索方法在信息论和码设计中的潜力，并且是首次将此类方法应用于构建纠错码的应用。

发布时间: 4/2/2025

查看原文