arXiv 论文列表

作者: Bhishma Dedhia, Niraj K. Jha

arXiv:2403.07887v4 通知类型: replace-cross 摘要: 一些关于人类认知的论述认为，我们的智力源于我们形成抽象可组合概念的能力，在环境中建立这些概念，并对这些地基实体进行推理。这一组合而成的思考 trifecta 在现代智能机器中一直难以实现。在这项工作中，我们探讨从视觉场景中提取的槽表示是否作为适当的组合抽象，用于建立连接和推理。我们提出了神经槽解释器（NSI），并使其学习将对象语义锚定在槽中。NSI的核心是一个嵌套模式，使用简单的语法规则将场景中的对象语义组织成以对象为中心的模式原语。然后，NSI 指标通过结构化的对比学习目标进行学习，该目标可以对跨模态对齐进行推理，从而将这些原语锚定到槽中。通过双向对象-属性和场景检索任务的实验，展示了 NSI 学习的连接的有效性和可解释性。从场景表示的角度来看，我们发现，超越图格绑定到空间对象的新兴 NSI 槽，相对于基于常规边界框的方法，能够实现更好的视觉接地。从数据效率的角度来看，我们实验证明，NSI 能够从固定数量的注释数据中学习出更具泛化性的表示，而传统方法则不能。此外，我们展示了地基槽在现实世界中的对象发现中超过了无监督槽，随着场景复杂度的增加，它们也能够扩展。最后，我们研究了地基槽在下游的应用效果。使用感知连接的 NSI 代币化器训练的视力变换器，即使在使用最少十个代币的情况下，也能在具有挑战性的少量样本分类任务中优于基于片段的代币。

发布时间: 5/12/2025

查看原文

卷积神经网络在k-空间插值中的图像空间形式主义

作者: Peter Dawood, Felix Breuer, Istvan Homolya, Maximilian Gram, Peter M. Jakob, Moritz Zaiss, Martin Blaimer

arXiv:2402.17410v2 宣告类型: replace-cross 摘要：目的：扫描特定鲁棒人工神经网络（RAKI）在k空间插值图像重建中的噪声鲁棒性与k空间中的非线性激活有关。为了更深入地理解这种关系，引入了RAKI的图像空间形式化方法，用于分析噪声传播，识别和表征图像重建特征，并以易于理解的方式描述非线性激活的作用。方法：通过将非线性激活在k空间表示为元素级乘法与激活掩码，然后在图像空间中转换为卷积，采用了RAKI的图像空间形式化方法。去交织且线圈组合的图像相对于交织线圈图像的雅可比可以代数表达，从而可以分析性地量化噪声放大（g因子图）。通过控制重建模型中的非线性程度（通过leaky ReLU的负斜率参数），分析了非线性在噪声鲁棒性中的作用。结果：分析性生成的g因子图与从蒙特卡洛模拟和自动微分方法得到的结果相符，并适用于真实脑部图像。增强的噪声鲁棒性会导致明显的模糊和对比度损失伪影。可以通过调整模型中的非线性程度（类似于Tikhonov正则化）来在有限训练数据的情况下权衡这些残余伪影和噪声鲁棒性。图像空间激活的检查揭示了一种自相关模式，可能导致潜在的中心伪影。结论：RAKI的图像空间形式化方法为分析性的定量噪声传播分析和Human-readable可视化非线性激活函数在k空间的效果提供了方法。

发布时间: 5/12/2025

查看原文

大型AI模型生成的多媒体内容检测：一个综述

作者: Li Lin, Neeraj Gupta, Yue Zhang, Hainan Ren, Chun-Hao Liu, Feng Ding, Xin Wang, Xin Li, Luisa Verdoliva, Shu Hu

arXiv:2402.00045v4 宣布类型: replace-cross 摘要：大型人工智能模型（LAIMs），尤其是扩散模型和大型语言模型的快速发展，标志着一个新的时代，即AI生成的多媒体越来越多地融入日常生活的各个方面。尽管在众多领域带来了好处，但这种内容也带来了重大风险，包括潜在的滥用、社会扰乱和伦理问题。因此，检测由LAIMs生成的多媒体变得至关重要，并且相关的研究也有了显著增长。然而，仍存在一个明显的系统性差距，即专注于检测LAIMs生成的多媒体的研究综述。为了解决这一问题，我们提供了第一份综述，全面涵盖了现有检测LAIMs生成的多媒体（如文本、图像、视频、音频和多媒体内容）的研究。具体而言，我们引入了一种新的分类法，按照媒体模态进行分类，并与两个视角相对应：纯检测（旨在提高检测性能）和超越检测（为检测器增加普遍性、稳健性和可解释性等属性）。此外，我们还简要介绍了生成机制、公共数据集、在线检测工具和评估指标，为该领域的研究人员和 practitioners 提供了有价值的资源。最重要的是，我们从社交媒体的角度进行了重点分析，以突出其更广泛的社会影响。此外，我们识别了检测当前面临的挑战，并提出了未来研究的方向，以解决检测LAIMs生成的多媒体过程中尚未探索、持续和新兴的问题。我们撰写此综述的目的是填补学术空白，并为全球AI安全努力作出贡献，帮助确保数字领域的信息完整。项目链接为 https://github.com/Purdue-M2/Detect-LAIM-generated-Multimedia-Survey。

发布时间: 5/12/2025

查看原文

治愈性的类型疗法：大型语言模型聊天机器人在心理健康支持中的体验

作者: Inhwa Song, Sachin R. Pendse, Neha Kumar, Munmun De Choudhury

arXiv:2401.14362v3 宣告类型：replace-cross 摘要：经历严重困扰的人越来越多地使用大型语言模型（LLM）聊天机器人作为心理健康支持工具。社交媒体上的讨论提到，某些人在与这些聊天机器人的互动中获得了生的希望，但研究表明，如果不负责任地设计，通用语言模型聊天机器人也存在显著风险，这些风险可能会危及用户的福祉。在这项研究中，我们调查了使用LLM聊天机器人作为心理健康支持的人的生活经验。我们基于来自全球不同背景的21名个体的访谈，分析了用户如何为聊天机器人创建独特的支持角色、在日常护理中填补空白、并在寻求聊天机器人支持时导航相关的文化限制。我们从心理治疗文献中关于有效支持的内容出发，引入了治疗性对齐的概念，即在心理健康情境中将人工智能与治疗价值相协调。我们的研究提供了关于设计师如何在心理健康护理中负责任且有效地使用LLM聊天机器人和其他人工智能心理健康支持工具的建议。

发布时间: 5/12/2025

查看原文

深度强化学习邀请函

作者: Bernhard Jaeger, Andreas Geiger

arXiv:2312.08365v3 宣布类型: replace-cross 摘要：训练深度神经网络以最大化目标指标在过去十年中已成为成功的机器学习的标准方法。如果目标指标是可微的，这些网络可以通过监督学习进行优化。然而，对于许多有趣的问题，这并不是情况。常见的目标，如交集比（IoU）、双语评估 understudy（BLEU）评分或奖励，不能通过监督学习进行优化。一种常见的方法是定义可微的替换损失，这会导致相对于实际目标的次优解。近年来，强化学习（RL）已成为优化深度神经网络以最大化非可微目标的有希望的替代方案。例子包括通过人类反馈对大型语言模型的对齐、代码生成、对象检测或控制问题。这使RL技术对更广泛的机器学习受众变得 relevant。然而，由于方法范围广泛且经常理论性很强，因此这种方法需要大量时间去接近。在这篇介绍中，我们采取了一种不同于经典强化学习教科书的方法。我们不集中在表格问题上，而是将强化学习引入为监督学习的概括，并首先将其应用于非可微目标，之后应用于时序问题。假定读者仅具备监督学习的基本知识，在阅读这篇教程后，读者将能够理解当前最先进的深度强化学习算法，如近端策略优化（PPO）。

发布时间: 5/12/2025

查看原文

基于端到端自我监督模仿学习的相机和LiDAR数据驾驶egl

作者: Jin Bok Park, Jinkyu Lee, Muhyun Back, Hyunmin Han, David T. Ma, Sang Min Won, Sung Soo Hwang, Il Yong Chun

arXiv:2308.14329v3 公告类型: replace-cross 摘要：在自动驾驶领域，直接从传感器数据预测车辆控制信号的端到端（E2E）驾驶方法正迅速获得关注。为了学习一个安全的E2E驾驶系统，需要大量的驾驶数据和人工干预。车辆控制数据通过许多小时的人工驾驶构建而成，构建大规模的车辆控制数据集极具挑战性。通常，公开可用的驾驶数据集只收集了有限的驾驶场景，并且收集车辆控制数据只能通过车辆制造商。为了解决这些问题，本文基于自我监督回归学习（SSRL）框架，首次提出了一种全新的自我监督学习框架，自我监督模仿学习（SSIL），用于E2E驾驶。所提出的SSIL框架可以在不需要使用驾驶指令数据或预训练模型的情况下学习E2E驾驶网络。为了构造伪转向角数据，提出的SSIL从轻检测和测距传感器估算的当前时间和先前时间点的车辆姿态中预测伪目标。此外，我们还提出了两种根据高级指令预测驾驶命令的E2E驾驶网络。我们的数值实验使用了三个不同的基准数据集证明，所提出的SSIL框架在E2E驾驶精度上与监督学习方法相当。所提出的伪标签预测器优于现有的使用比例积分微分控制器的方法。

发布时间: 5/12/2025

查看原文

EcoAgent：一种高效的边缘-云协作多agent框架用于移动自动化

作者: Biao Yi, Xavier Hu, Yurun Chen, Shengyu Zhang, Hongxia Yang, Fan Wu, Fei Wu

arXiv:2505.05440v2 通知类型: 替换摘要: 由(多模态)大规模语言模型((M)LLMs)驱动的基于云的移动代理提供了强大的推理能力，但存在高延迟和成本问题。虽然微调的(M)SLMs允许边缘部署，但它们通常会失去通用能力，并且在处理复杂任务时会遇到困难。为了解决这一问题，我们提出了一种名为\textbf{EcoAgent}的边缘-云协作多代理框架，用于移动自动化。EcoAgent 包含一个闭环合作，其中包含一个基于云的规划代理和两个边缘代理：执行代理用于执行操作，观察代理用于验证结果。观察代理使用预理解模块将屏幕图像压缩成简洁的文本，从而减少标记的数量和通信开销。如果发生故障，规划代理通过记忆模块检索屏幕历史，并通过反思模块重新规划。在AndroidWorld上的实验显示，EcoAgent 在任务成功率方面与基于云的移动代理相当，同时显著减少了LLM标记的使用量，使得移动自动化更加高效和实用。

发布时间: 5/12/2025

查看原文

基于持续工作流提示、元提示和元推理的AI驱动学术同行评审

作者: Evgeny Markhasin

arXiv:2505.03332v2 宣告类型：替换摘要：对科学手稿进行关键性同行评审是大型语言模型（LLMs）面临的一项重大挑战，部分原因是数据限制和专家推理的复杂性。本报告介绍了持久工作流提示（PWP），这是一种潜在地广泛适用的提示工程方法，旨在使用标准LLM聊天界面（无需编码，无需API）来弥合这一差距。我们提出了一种基于PWP的概念性提示，用于实验化学手稿的关键分析，该提示通过Markdown结构化，具有层次化、模块化的架构，定义了详细的分析工作流程。我们通过迭代应用元提示技术和元推理来开发这一PWP提示，旨在系统地编码专家审查工作流程，包括隐含知识。在一个会话开始时提交一次，该PWP提示为LLM提供了持久工作流程，这些工作流程可通过后续查询触发，引导现代推理LLM进行系统的、多模态的评估。演示显示，PWP指导的LLM在测试案例中识别出重要的方法论缺陷，同时缓解了LLM的输入偏见，并能执行复杂任务，包括区分主张与证据、将文本/照片/图版分析整合以推断参数、执行定量可行性检查、将估计值与主张进行比较以及评估先验合理性。为了确保透明度并促进复制，我们提供了完整的提示、详细的演示分析以及交互式聊天日志作为补充资源。除了特定的应用之外，这项工作还提供了关于元开发过程本身的见解，突显了PWP在详细的工作流程形式化指导下，能够利用现成的LLM进行复杂科学任务的高级分析的潜力。

发布时间: 5/12/2025

查看原文

toward AI驱动的警务：从警用体戴摄像头 footage 中的跨学科知识发现

作者: Anita Srbinovska, Angela Srbinovska, Vivek Senthil, Adrian Martin, John McCluskey, Jonathan Bateman, Ernest Fokou\'e

arXiv:2504.20007v2 宣告类型: 修改摘要：本文提出了一种新的跨学科框架，使用先进的人工智能（AI）和统计机器学习（ML）技术来分析罗切斯特警察部门（RPD）的警用随身摄像头（BWC） footage。我们的目标是检测、分类并分析警员与平民之间互动的模式，以识别关键的行为动态，如尊重、不尊重、升级和降级。我们通过结合视频、音频和自然语言处理（NLP）技术来进行多模态数据分析，以从BWC footage中提取有意义的见解。我们介绍了我们的方法论、计算技术以及研究成果，提出了一个适用于执法的专业方法，同时推动了从警用BWC数据中发现知识的前沿。

发布时间: 5/12/2025

查看原文

可扩展监督的标度法则

作者: Joshua Engels, David D. Baek, Subhash Kantamneni, Max Tegmark

arXiv:2504.18530v2 宣告类型: 替换摘要：可扩展的监督，即较弱的人工智能系统监督较强的人工智能系统的过程，已经提出作为一种控制未来超级智能系统的关键策略。然而，仍不清楚可扩展的监督如何实现可扩展性。为了解决这一问题，我们提出了一个框架，该框架以监督者和被监督系统的能力为函数，量化成功监督的概率。具体而言，我们的框架将监督建模为技能差异较大的玩家之间的博弈；这些玩家具有特定于监督的Elo评分，该评分是其一般智能的分段线性函数，有两个平台分别对应任务无能和任务饱和。我们使用修改后的Nim游戏对框架进行了验证，然后将其应用于四个监督游戏：黑帮、辩论、后门代码和军备竞赛。对于每个游戏，我们找到近似描述通用人工智能系统能力与领域性能之间关系的缩放法则。然后，我们基于这些发现，在对嵌套可扩展监督（NSO）进行了理论研究，NSO是一个被信任的模型监督不被信任的更强模型的过程，这些更强的模型在下一个步骤中成为被信任的模型。我们确定了NSO成功所需的条件，并通过数值方法（在某些情况下通过解析方法）推导出最大化成功监督概率的最佳监督层级数。我们还将我们的理论应用于四个监督游戏，发现一般Elo差距为400时，NSO的成功率为：黑帮13.5%、辩论51.7%、后门代码10.0%、军备竞赛9.4%；当监督更强的系统时，这些成功率进一步下降。

发布时间: 5/12/2025

查看原文