arXiv 论文列表

作者: Xianqi Zhang, Xingtao Wang, Xu Liu, Wenrui Wang, Xiaopeng Fan, Debin Zhao

arXiv:2209.04100v3 任务类型: replace 摘要：在 recent 年里，强化学习 (RL) 和模仿学习 (IL) 在机器人的决策制定方面取得了显著进展。然而，这些方法在需要通过新的行为组合来完成的新任务中表现出明显的退化。RL 方法受奖励函数和分布移位的影响，而 IL 方法受限于专家演示，这些演示没有涵盖新任务。相比之下，人类可以利用从任务无关的经验中学到的碎片化知识轻松完成这些任务。受此观察的启发，本文提出了一种任务无关的学习方法（简称 TAL），该方法仅从任务无关的数据中学习碎片化知识以完成新任务。TAL 包括四个阶段。首先，进行任务无关的探索以从与环境的交互中收集数据。收集的数据通过知识图谱组织。其次，提出并使用收集的知识图谱数据训练动作特征提取器，以实现任务无关的碎片化知识学习。第三，设计了一个候选动作生成器，该生成器将动作特征提取器应用于新任务以生成多个候选动作集。最后，设计了一个动作提案网络，根据环境信息产生新任务中动作的概率。然后利用这些概率生成选择动作的顺序信息，从多个候选动作集选择要执行的动作以形成计划。在虚拟室内场景上的实验显示，所提出的方法比最先进的离线 RL 方法和 IL 方法高出 20% 以上。

发布时间: 4/29/2025

查看原文

大规模逆渲染模型：形状、材质和视点依赖辐射场的渐进重建

作者: Zhengqin Li, Dilin Wang, Ka Chen, Zhaoyang Lv, Thu Nguyen-Phuoc, Milim Lee, Jia-Bin Huang, Lei Xiao, Cheng Zhang, Yufeng Zhu, Carl S. Marshall, Yufeng Ren, Richard Newcombe, Zhao Dong

arXiv:2504.20026v1 宣布类型: cross 摘要: 我们提出了大型逆渲染模型 (LIRM)，这是一种在不到一秒钟的时间内联合重构高质量形状、材料和视点依赖辐射场的变压器架构。我们的模型建立在最近的大型重构模型 (LRMs) 之上，这些模型在稀疏视图重构质量方面达到了最先进的水平。然而，现有的 LRMs 在准确重构未见部分时存在问题，并且无法恢复光泽外观或生成可被标准图形引擎消费的可重新照明的 3D 内容。为了解决这些局限性，我们做出了三项关键技术贡献，以构建一种更为实用的多视图 3D 重构框架。首先，我们引入了一个更新模型，使我们能够逐步添加更多的输入视图以改进我们的重构。第二，我们提出了六平面神经 SDF 表示以更好地恢复详细的纹理、几何形状和材料参数。第三，我们开发了一种新颖的神经方向嵌入机制以处理视点依赖效应。通过在专门设计的从粗到细训练方案上训练于大规模形状和材料数据集上，我们的模型取得了令人信服的结果。在几何形状和重新照明准确性方面，它与基于优化的密集视图逆渲染方法相比表现更优，但所需推断时间仅为前者的几分之一。

发布时间: 4/29/2025

查看原文

模块化机器学习：通往新一代大语言模型不可或缺的道路

作者: Xin Wang, Haoyang Li, Zeyang Zhang, Haibo Chen, Wenwu Zhu

arXiv:2504.20020v1 Announce Type: cross 摘要: 大型语言模型（LLMs）在自然语言处理、计算机视觉、数据挖掘等方面显著推进了机器学习研究，但仍表现出在推理、事实一致性以及可解释性方面的关键局限性。在本文中，我们介绍了一种新的学习范式——模块化机器学习（MML），作为新一代LLMs的基本方法。MML将复杂结构的LLMs分解为三个相互依赖的组成部分：模块化表示、模块化模型和模块化推理，旨在增强LLMs在反事实推理、减轻幻觉、促进公平性、安全性和透明度方面的能力。具体而言，所提出的MML范式可以：i) 通过分离语义组件清晰地阐明LLMs的内部工作机制；ii) 允许灵活且任务适配的模型设计；iii) 使解释性和基于逻辑的决策过程成为可能。我们通过利用诸如分离表示学习、神经架构搜索和神经符号学习等先进技术，提出了MML基础的LLMs的可行实现方式。我们批判性地指出了关键挑战，如连续神经过程和离散符号过程的集成、联合优化和计算可扩展性，并提出了值得进一步探索的有希望的未来研究方向。最终，MML范式与LLMs的结合有可能弥合统计（深度）学习与形式（逻辑）推理之间的差距，从而为各种实际应用中的稳健、适应性和可信赖的AI系统铺平道路。

发布时间: 4/29/2025

查看原文

基于控制的物理知情神经网络的水下车辆建模

作者: Abdelhakim Amer, David Felsager, Yury Brodskiy, Andriy Sarabakha

arXiv:2504.20019v1 类型: 交叉摘要: 物理指导神经网络(PINNs)将物理法则与数据驱动模型相结合，以提高模型的泛化能力和样本效率。本工作提出了一种开放源代码的物理指导神经网络与控制(PINC)框架的实现，该框架旨在建模水下车辆的动力学。利用初始状态、控制动作和时间输入，PINC将PINNs扩展到训练域之外，实现物理一致的过渡。测试了多种PINC配置，包括不同的损失函数、梯度加权方案和超参数。在模拟的水下车辆上的验证结果显示，与非物理指导的基线相比，PINC在长期预测中表现更为准确。

发布时间: 4/29/2025

查看原文

MINT: 多向量搜索索引调优

作者: Jiongli Zhu, Yue Wang, Bailu Ding, Philip A. Bernstein, Vivek Narasayya, Surajit Chaudhuri

arXiv:2504.20018v1 类型: cross 摘要：向量搜索在许多实际应用场景中起着至关重要的作用。除了单向量搜索外，多向量搜索在多模态和多特征场景中变得尤为重要。在多向量数据库中，每一行是一个项目，每一列代表项目的特征，每个单元格是一个高维向量。在多向量数据库中，索引的选择对性能有很大影响。尽管关系型数据库的索引调整已经被广泛研究，但多向量搜索的索引调整仍然不清楚且具有挑战性。在本文中，我们定义了多向量搜索索引调整，并提出了一个解决该问题的框架。具体来说，给定一个多向量搜索工作负载，我们开发了算法以最小化延迟并满足存储和召回约束。与基准相比，我们的延迟实现了2.1倍至8.3倍的加速。

发布时间: 4/29/2025

查看原文

简化且安全的企业AI集成MCP网关

作者: Ivo Brett

arXiv:2504.19997v1 类型: 对跨领域主题的综述摘要：随着Model Context Protocol (MCP)在AI代理中的采用增加，企业集成的安全性变得尤为重要。本文介绍了MCP网关，以简化自托管MCP服务器的集成。提出的架构集成了安全原则、身份验证、入侵检测和安全隧道，允许安全的自托管而不暴露基础设施。关键贡献包括参考架构、威胁模型映射、简化集成策略和开源实现建议。本工作专注于企业导向的、自托管AI集成的独特挑战，不同于现有的公开MCP服务器解决方案。

发布时间: 4/29/2025

查看原文

使用Sentinel-2卫星影像监测消化物在农用作物的应用效果

作者: Andreas Kalogeras, Dimitrios Bormpoudakis, Iason Tsardanidis, Dimitra A. Loka, Charalampos Kontoes

arXiv:2504.19996v1 交叉引用类型: cross 摘要: 农业中广泛使用的外源有机物的使用需要进行监测，以评估其对土壤和作物健康的影响。本研究评估了光学Sentinel-2卫星图像，以检测消化物应用，该做法可以提高土壤肥力，但也会带来如微塑料污染和氮流失等环境风险。首先，使用了Sentinel-2卫星图像时间序列(SITS)分析特定指数(EOMI、NDVI、EVI)，来表征四种不同作物类型在希腊色萨福利地区土壤中的外源有机物(EOM)的光谱行为。此外，使用了机器学习(ML)模型(包括随机森林、k-NN、梯度提升和前馈神经网络)，以调查消化物存在的检测，实现了高达0.85的F1分数。研究结果强调了结合遥感和机器学习进行外源有机物应用的可扩展和成本效益监测的潜力，支持精准农业和可持续发展。

发布时间: 4/29/2025

查看原文

缓解人工智能时代的社会认知过载：挑战与方向

作者: Salem Lahlou

arXiv:2504.19990v1 交叉领域类型: 摘要: 在人工智能时代，由于信息洪流和复杂性的冲击，社会认知负担加剧，这对人类福祉和社会韧性构成了关键性挑战。本文认为，减轻认知负担不仅对于改善当今的生活至关重要，也是应对先进人工智能潜在风险，包括存在性威胁的必要前提。我们探讨了人工智能通过各种机制加剧认知负担的方式，包括信息泛滥、算法操控、自动化焦虑、监管缺失以及意义的侵蚀。本文将人工智能安全辩论重新聚焦于认知负担，突显其作为近期内在危害与长期风险之间的桥梁作用。最后，本文讨论了采用认知负担弹性视角对人类与人工智能对齐所带来的一系列机构改革、研究方向和政策考虑，提出了未来探索的路径而非提出具体的解决方案。

发布时间: 4/29/2025

查看原文

实时模仿人类头部运动、眨眼和情绪的NAO机器人闭-loop方法

作者: Keyhan Rayati, Amirhossein Feizi, Alireza Beigy, Pourya Shahverdi, Mehdi Tale Masouleh, Ahmad Kalhor

arXiv:2504.19985v1 交叉类型摘要：本文介绍了一种新的方法，通过NAO机器人实时模仿人类头部运动，重点关注提升人机交互的质量。通过使用MediaPipe作为计算机视觉库和DeepFace作为情感识别库的稳健功能，该研究旨在捕捉人类头部运动的细微之处，包括眨眼动作和情感表达，并无缝地将这些指标融入机器人的响应中。结果是一种全面的框架，使在人机交互中精确模仿头部运动成为可能，采用了一种闭环方法，该方法涉及从机器人模仿性能收集实时反馈。反馈环确保了对头部运动建模的高度准确性，如俯仰方向的R2得分为96.3，旋转方向的R2得分为98.9。值得注意的是，所提出的方法有望改善自闭症儿童的沟通，为他们提供了更有效的互动的宝贵工具。本质上，所提出的工作探索了实时头部模仿和实时情感识别的集成，以增强人机交互，对于具有独特沟通需求的个人可能具有潜在益处。

发布时间: 4/29/2025

查看原文

TD-EVAL：通过结合回合级精确度与对话级比较重新审视任务导向对话评估

作者: Emre Can Acikgoz, Carl Guo, Suvodip Dey, Akul Datta, Takyoung Kim, Gokhan Tur, Dilek Hakkani-T\"ur

arXiv:2504.19982v1 任务类型: cross 摘要: 任务导向对话(TOD)系统正经历由大型语言模型(LLMs)驱动的革命，然而这些系统的评估方法对于其日益复杂性仍显得不足。尽管传统的自动化评估指标有效评估了早期模块化系统，但它们仅关注对话层面，无法检测用户-代理交互过程中可能出现的关键中间错误。本文介绍了一种两步评估框架TD-EVAL(回合级和对话级评估)，它将细粒度的回合级分析与全面的对话级比较统一起来。在回合级别上，我们评估每个响应的三个TOD特定维度：对话一致性、后端知识一致性以及政策合规性。同时，我们设计了TOD Agent Arena，使用成对比较提供对话级质量的度量。通过在MultiWOZ 2.4和τ-Bench上的实验，我们证明TD-EVAL能够有效地识别传统指标所遗漏的对话错误。此外，TD-EVAL在对话级质量评估方面与人类判断有更好的一致性，优于传统的和基于LLM的指标。这些发现表明，TD-EVAL引入了一种新的TOD系统评估范式，通过即插即用的框架高效评估回合级和系统级，为未来的研究提供了便利。

发布时间: 4/29/2025

查看原文