arXiv 论文列表

作者: Ziwei Song, Mingsong Lv, Tianchi Ren, Chun Jason Xue, Jen-Ming Wu, Nan Guan

arXiv:2412.16265v3 自动驾驶系统类型: 替换摘要: 当前的自动驾驶系统（ADS）独立做出驾驶决策，但它们面临两个重大限制。首先，在复杂场景中，ADS 可能会误解环境并做出不适当的驾驶决策。其次，这些系统无法将其决策过程与人类驾驶偏好相结合。本文提出了一种名为 Autoware$.$Flex 的新型 ADS 系统，它将人类输入纳入驾驶过程中，允许用户指导 ADS 作出更合适的决策，并确保其偏好得到满足。实现这一目标需要解决两个关键挑战：（1）将人类用自然语言表达的指令转化为 ADS 能够理解的格式，以及（2）确保这些指令在 ADS 的决策框架中得到安全和一致的执行。为了解决第一个挑战，我们利用一个大型语言模型（LLM）结合 ADS 专用的知识库来增强领域特定的翻译。为了解决第二个挑战，我们设计了一种验证机制，以确保人类指令会导致安全和一致的驾驶行为。在模拟器和真实自动驾驶车辆上的实验表明，Autoware$.$Flex 有效地解释了人类指令并安全地执行了这些指令。

发布时间: 2/17/2025

查看原文

生成模型、人类、预测模型：谁在高 stakes 决策中表现更差？

作者: Keri Mallari, Julius Adebayo, Kori Inkpen, Martin T. Wells, Albert Gordo, Sarah Tan

arXiv:2410.15471v2 宣告类型: 替换摘要: 尽管强烈反对，大型生成模型（LMs）已经在用于决策任务，这些任务之前是由预测模型或人类完成的。我们用三个闭源和开源的 LMs 在一个高风险的决策任务中进行了测试：再犯预测。研究这三种 LM，我们不仅从准确性的角度分析它们，还从与（不完美、嘈杂且有时存在偏见的）人类预测或现有预测模型的一致性角度进行分析。我们进行了一项实验，评估提供不同类型信息（包括分散注意力的信息，如照片）如何影响 LM 的决策。我们还测试了旨在提高 LM 准确性或减轻 LM 偏见的技术，并发现其中一些技术对 LM 的决策产生了意想不到的影响。我们的结果提供了额外的定量证据，证明当前的 LMs 并不适合这些类型的任务。

发布时间: 2/17/2025

查看原文

MeNTi：嵌套工具调用连接医疗计算器和LLM代理

作者: Yakun Zhu, Shaohang Wei, Xu Wang, Kui Xue, Xiaofan Zhang, Shaoting Zhang

arXiv:2410.13610v2 通知类型: 修改摘要: 将工具整合到大规模语言模型（LLMs）中促进了其广泛应用。然而，在专门的下游任务情境中，单纯依赖工具仍然不足以完全应对现实世界的复杂性。特别是在医学领域，这种限制尤其明显，限制了LLMs的有效部署。在本文中，我们专注于医学计算器的下游任务，这些任务使用标准化测试来评估个体的健康状况。我们提出了MeNTi，这是一种适用于LLMs的通用智能体架构。MeNTi整合了一个专门的医学工具包，并采用元工具和嵌套调用机制来增强LLM工具的利用。具体来说，它实现了灵活的工具选择和嵌套工具调用来解决复杂的医学场景中面临的具体问题，包括计算器选择、填槽和单位转换。为了评估LLMs在整个临床过程中的定量评估能力，特别是在计算器场景中的应用，我们引入了CalcQA。该基准要求LLMs使用医学计算器进行计算并评估患者健康状况。CalcQA由专业医生构建，并包括100个病例-计算器对，同时配有281个医学工具包。实验结果表明，在我们的框架下有显著的性能提升。这项研究为在医疗领域应用需求较高的场景中应用LLMs开辟了新的方向。

发布时间: 2/17/2025

查看原文

ResearchArena: 评估大型语言模型作为研究代理收集和组织信息的能力

作者: Hao Kang, Chenyan Xiong

arXiv:2406.10291v2 宣告类型: 替换摘要：大型语言模型（LLMs）在多种自然语言处理任务中表现出色，但在执行诸如学术调研等特定领域、分析性任务时面临挑战。本研究介绍了ResearchArena，这是一个用于评估LLMs执行学术调研能力的基准。ResearchArena将调研过程分为三阶段：（1）信息发现，识别相关文献；（2）信息选择，评估论文的相关性和影响；（3）信息组织，将知识结构化为如思维导图之类的层级框架。值得注意的是，思维导图的构建被视作一个额外任务，反映了其在调研写作中的补充作用。为了支持这些评估，我们构建了一个包含1200万篇全文本学术论文和7900篇调研论文的线下环境。为了确保合规性，我们未重新分发受版权保护的材料，而是提供了从Semantic Scholar开放研究语料库（S2ORC）构建此环境的代码。初步评估显示，基于LLM的方法在性能上逊于基于关键词的检索方法，这突显了在自主研究领域提升LLM能力的重要机遇。

发布时间: 2/17/2025

查看原文

OMNI-EPIC：通过编码环境实现开放性的人类趣味观念建模

作者: Maxence Faldor, Jenny Zhang, Antoine Cully, Jeff Clune

arXiv:2405.15568v3 Announce Type: replace 摘要：开放生成和AI生成的算法旨在不间断地生成和解决越来越复杂的任务，为向更普遍的人工智能迈进提供了前景。为了实现这一宏伟愿景，学习必须在大量的潜在任务中进行。现有的自动生成环境的方法局限于手动预定义的、通常狭窄的环境分布，限制了它们创建任何学习环境的能力。为了解决这一限制，我们提出了一个名为OMNI-EPIC的新框架，该框架将人工多样性概念（OMNI）与代码中编程的环境（EPIC）相结合，扩展了开放生成领域的先前工作。OMNI-EPIC利用基础模型自动生成指定下一个可学习任务（即对于当前智能体的技能水平既不太简单也不太困难）和有趣的（例如，有价值的且新颖）代码。OMNI-EPIC不仅能生成环境（例如，障碍课程），还能生成奖励函数（例如，在不碰到红色物体的情况下快速通过障碍课程），使其原则上能够创建任何可模拟的学习任务。我们展示了OMNI-EPIC的爆炸性创造力，它不断创新以提出新的有趣的挑战。我们还展示了OMNI-EPIC如何适应强化学习智能体的学习进度，生成适配难度的任务。总体而言，OMNI-EPIC可以无尽地生成可学习且有趣的环境，进一步推动自我改进的AI系统和生成算法的发展。项目网站及视频：https://dub.sh/omniepic

发布时间: 2/17/2025

查看原文

AgentStudio: 一个构建通用虚拟代理的工具包

作者: Longtao Zheng, Zhiyuan Huang, Zhenghai Xue, Xinrun Wang, Bo An, Shuicheng Yan

arXiv:2403.17918v3 通知类型: 替换摘要: 通用虚拟代理需要处理多模态观测，掌握复杂的动作空间，并在动态开放域环境中自我提升。然而，现有的环境往往是特定领域的，并需要复杂的设置，这限制了代理在现实世界环境中的开发和评估。因此，当前的评估缺乏对基本代理能力的深入分析。我们提出了 AgentStudio，一种环境、工具和基准的三位一体，以解决这些问题。AgentStudio 提供了一个轻量级、交互式的环境，具有高度通用的观测和动作空间，例如视频观测和GUI/API 动作。它集成了创建在线基准任务、标注 GUI 元素和在视频中标注动作的工具。基于我们的环境和工具，我们精选了一个在线任务套件，用于评估 GUI 交互和函数调用的高效自动评估。我们还重组了现有的数据集，并使用我们的工具收集新的数据集，建立了三个数据集：GroundUI、IDMBench 和 CriticBench。这些数据集评估了基本的代理能力，包括 GUI 地基、从视频中学习和成功检测，指出了鲁棒、通用和开放性虚拟代理的期望特性。

发布时间: 2/17/2025

查看原文

间歇可观测马尔可夫决策过程

作者: Gongpu Chen, Soung-Chang Liew

arXiv:2302.11761v2 公告类型: 替换摘要：本文研究具有间歇状态信息的MDPs。我们考虑控制器通过不可靠的通信信道感知过程的状态信息的情况。在整个时间段内状态信息的传输被建模为一个伯努利衰减过程。因此，问题是在状态信息丢失的情况下选择动作的最优策略。我们首先将问题形式化为信念MDP，以建立结构结果。系统地研究了状态信息丢失对预期总折现收益的影响。然后，我们重新将问题形式化为一个树结构的MDP，其状态空间组织成树形结构。为高效找到近最优策略，我们开发了树结构MDP的两个有限状态逼近方法。最后，我们提出了一个嵌套价值迭代算法，该算法被证明比标准价值迭代更快。数值结果证明了我们方法的有效性。

发布时间: 2/17/2025

查看原文

区域自适应采样for扩散变换器

作者: Ziming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang

arXiv:2502.10389v1 Announce Type: cross 摘要：扩散模型（DMs）已成为各领域生成任务的首选方法。然而，它们依赖于多次序列前向传递，这严重限制了实时性能。先前的加速方法主要集中在减少采样步骤的数量或重用中间结果上，但未能利用图像内部空间区域间的变异，因为卷积U-Net结构的限制。通过利用扩散变换器（DiTs）处理可变数量标记的灵活性，我们引入了RAS，这是一种无需训练的新型采样策略，根据DiT模型的焦点动态地为图像内的不同区域分配不同的采样比例。我们的关键观察是，在每次采样步骤中，模型集中在语义上有意义的区域，而这些焦点区域在连续步骤中表现出强烈的连续性。利用这一洞察，RAS仅更新当前在焦点的区域，而其他区域则使用上一步缓存的噪声进行更新。模型的焦点是根据上一步的输出确定的，利用了我们观察到的时间一致性。我们在Stable Diffusion 3和Lumina-Next-T2I上评估了RAS，分别实现了2.36倍和2.51倍的速度提升，同时生成质量几乎没有下降。此外，用户研究显示，RAS在人类评估中提供了相当的质量，同时实现了1.6倍的速度提升。我们的方法为更高效的扩散变换器迈出了重要一步，增强了其在实时应用中的潜力。

发布时间: 2/17/2025

查看原文

通过编码率正规化简化 DINO

作者: Ziyang Wu, Jingyuan Zhang, Druv Pai, XuDong Wang, Chandan Singh, Jianwei Yang, Jianfeng Gao, Yi Ma

arXiv:2502.10385v1 Announce Type: cross 摘要：DINO和DINOv2是两个广泛应用于从大规模未标记图像数据中学习表示的模型系列。它们学到的表示往往能够为下游任务，如图像分类和分割提供最先进的性能。然而，它们采用了许多经验驱动的设计选择，并且其训练管道非常复杂且不稳定——许多超参数需要仔细调整以确保表示不会崩溃——这给改进它们或将其应用于新领域造成了相当大的困难。在本文中，我们提出可以在预训练管道中删除大多数此类经验驱动的特性，并只需在损失函数中添加显式的编码速率项以避免表示崩溃。因此，我们得到了DINO和DINOv2的简化版本，我们分别称之为SimDINO和SimDINOv2。令人惊讶的是，这些简化模型对不同的设计选择（如网络结构和超参数）更为稳健，并且通过下游任务上的性能学习了更高的质量表示，与对应的DINO和DINOv2模型相比，提供了一种帕累托改进。本文强调了使用简化设计原则来改进深度学习的实践潜力。

发布时间: 2/17/2025

查看原文

OWLS：多语言语音识别和翻译模型的标度法则

作者: William Chen, Jinchuan Tian, Yifan Peng, Brian Yan, Chao-Han Huck Yang, Shinji Watanabe

arXiv:2502.10373v1 宣告类型: cross 摘要: 神经网络的标度定律为设计稳健的序列处理架构提供了宝贵见解。虽然这些定律在其他模态中已经得到了广泛的研究，但在语音方面的行为依然相对未被充分探索。在这项工作中，我们引入了OWLS，这是一个开放访问、可复现的多语言语音识别和翻译模型套件，涵盖0.25亿到18亿参数，18亿参数版本是迄今为止已知的最大的语音模型。OWLS 利用了跨越150种语言的高达360,000小时的公开语音数据，使得我们可以系统地调查数据、模型和计算能力如何共同影响多语言语音任务的性能。我们使用OWLS 推导出神经网络的标度定律，展示了如何在扩展时可靠地预测最终性能。我们的一个关键发现是，扩展能够提升低资源语言/方言的表现，有助于减轻偏见并提高语音技术的可访问性。最后，我们展示了OWLS 如何能够为新研究方向提供动力，通过发现大规模语音模型中的新兴能力。模型检查点将于未来的研究中在 <https://huggingface.co/collections/espnet/owls-scaling-laws-for-speech-recognition-and-translation-67ab7f991c194065f057ce8d> 上发布。

发布时间: 2/17/2025

查看原文