arXiv 论文列表

面向部署的多模态人工智能超越视觉和语言

作者: Xianyuan Liu, Jiayang Zhang, Shuo Zhou, Thijs L. van der Plas, Avish Vijayaraghavan, Anastasiia Grishina, Mengdie Zhuang, Daniel Schofield, Christopher Tomlinson, Yuhan Wang, Ruizhe Li, Louisa van Zeeland, Sina Tabakhi, Cyndie Demeocq, Xiang Li, Arunav Das, Orlando Timmerman, Thomas Baldwin-McDonald, Jinge Wu, Peizhen Bai, Zahraa Al Sahili, Omnia Alwazzan, Thao N. Do, Mohammod N. I. Suvon, Angeline Wang, Lucia Cipolina-Kun, Luigi A. Moretti, Lucas Farndale, Nitisha Jain, Natalia Efremova, Yan Ge, Marta Varela, Hak-Keung Lam, Oya Celiktutan, Ben R. Evans, Alejandro Coca-Castro, Honghan Wu, Zahraa S. Abdallah, Chen Chen, Valentin Danchev, Nataliya Tkachenko, Lei Lu, Tingting Zhu, Gregory G. Slabaugh, Roger K. Moore, William K. Cheung, Peter H. Charlton, Haiping Lu

arXiv:2504.03603v1 公告类型: 新摘要: 多模态人工智能（AI）通过机器学习整合各种类型的数据，从而在医学、科学和工程等多个领域提高理解和预测能力以及决策。然而，大多数多模态AI的进步主要集中在视觉和语言数据模型上，而其部署能力仍然是一个关键挑战。我们提倡一种以部署为中心的工作流程，早期结合部署约束条件，以降低不可部署解决方案的可能性，同时补充数据为中心和模型为中心的方法。我们还强调在多个层次的多模态以及跨学科合作方面的更深层次整合，以大幅度拓宽研究范围，超越视觉和语言领域。为了促进这种做法，我们识别出跨学科共享的多模态AI特定挑战，并分析了三个实际应用案例：疫情应对、自动驾驶汽车设计和气候变化适应，涉及健康、社会科学、工程、科学、可持续性和金融领域的专业知识。通过促进跨学科对话和开放研究实践，我们的社区可以加快以部署为中心的发展，以实现广泛的社会影响。

发布时间: 4/7/2025

查看原文

Talk2X -- 一个促进基于大语言模型聊天机器人类端部署的开源工具包

作者: Lars Krupp, Daniel Gei{\ss}ler, Peter Hevesi, Marco Hirsch, Paul Lukowicz, Jakob Karolus

arXiv:2504.03343v1 公告类型: 新摘要: 集成在网站中的由大规模语言模型驱动的聊天机器人提供了替代的信息导航和检索方式，导致了用户访问网络信息方式的转变。然而，主要的封闭源解决方案限制了其在网站托管中的普及，并且在实现细节和能源效率方面缺乏透明度。在本文中，我们提出了一种名为Talk2X的开源代理，利用改进的检索增强生成方法（RAG）结合自动生成的向量数据库，提高了能源效率。Talk2X的架构可以应用于任意网站，为开发人员提供了易于集成的工具。通过混合方法，我们通过让用户从开放科学存储库中获取特定资产来评估Talk2X的可用性。与标准用户-网站交互相比，Talk2X显著提高了任务完成时间、正确性和用户体验，支持用户快速定位所需信息。我们的发现为访问网络信息方式的持续范式转变做出了技术进步的贡献。

发布时间: 4/7/2025

查看原文

蒙特卡罗图着色

作者: Tristan Cazenave, Benjamin Negrevergne, Florian Sikora

arXiv:2504.03277v1 宣告类型: 新摘要: 图着色问题是图算法中研究最多和最著名的問題之一。精确方法无法解决具有数百个以上顶点的实例，因此已经提出了大量的启发式方法。嵌套蒙特卡洛搜索（NMCS）和嵌套展开策略适应（NRPA）是单人游戏的蒙特卡洛搜索算法。令人惊讶的是，很少有工作专门评估蒙特卡洛搜索算法在组合图问题上的性能。在本文中，我们将展示如何高效地将蒙特卡洛搜索应用于图着色问题，并将这种 approach 与其现有的方法进行比较。

发布时间: 4/7/2025

查看原文

见贤思齐：基于基础模型的不确定性估计信念空间规划

作者: Linfeng Zhao, Willie McClinton, Aidan Curtis, Nishanth Kumar, Tom Silver, Leslie Pack Kaelbling, Lawson L. S. Wong

arXiv:2504.03245v1 宣布类型: 新闻摘要: 在开放世界环境中实现泛化机器人移动操作具有重大挑战，由于长期规划、复杂的任务目标以及部分可观测性。解决这些挑战的一种有前景的方法是使用参数化技能库进行规划，其中任务规划器将这些技能按序排列，以实现用结构化语言（如符号事实的逻辑表达式）指定的任务目标。虽然视觉-语言模型（VLMs）可以用于将这些表达式与现实世界联系起来，但它们通常假设完全可观测性，当代理缺乏足够的信息来确定性地评估事实时，会导致次优行为。本文提出了一种新的框架，利用VLMs作为感知模块来估计不确定性并促进符号化接地。我们的方法构建了一种符号信念表示，并使用信念空间规划器生成考虑策略性信息收集的不确定性感知计划。这使代理能够有效处理部分可观测性和属性不确定性。我们在一系列需要在部分可观测环境中进行推理的挑战性现实任务上展示了我们的系统。仿真评估表明，与基于VLM的端到端规划或基于VLM的状态估计基线相比，我们的方法通过计划和执行策略性信息收集来表现出更优的性能。这项工作突显了VLMs构建信念空间符号场景表示的潜力，从而支持后续任务，如不确定性感知规划。

发布时间: 4/7/2025

查看原文

DeepResearcher: 在实际环境中通过强化学习扩展深度研究

作者: Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu

arXiv:2504.03160v1 公告类型: 新摘要: 具备网络搜索能力的大型语言模型（LLMs）在深度研究任务中展示了惊人的潜力。然而，当前的方法主要依赖于手工工程化的提示（基于提示工程技术的方法），性能脆弱，或者在受控的检索增强生成（RAG）环境中使用强化学习（基于RAG的方法），这些方法无法捕捉到现实世界交互的复杂性。在本文中，我们介绍了DeepResearcher，这是首个通过在真实世界环境中扩展强化学习（RL），并利用真实的网络搜索交互来端到端训练基于LLM的深度研究代理的全面框架。不同于基于RAG的方法假设必要信息存在于固定语料库中的假设，我们的方法训练代理能够应对开放网络的嘈杂、不结构化和动态的特性。我们实现了一个专门的多代理架构，其中浏览代理从各种网页结构中提取相关信息，并克服了重要的技术挑战。在开放领域的研究任务上进行的广泛实验表明，DeepResearcher在基于提示工程技术的基线上的表现提升了高达28.9个点，相对于基于RAG的RL代理则提升了7.2个点。我们的定性分析揭示了端到端RL训练中出现的认知行为，包括制定计划、从多个来源验证信息、进行自我反思以重新定向研究、并在无法找到最终答案时保持诚实。我们的结果强调，在真实世界的网络环境中进行端到端训练不仅是一个实现细节，而且是开发与现实应用对齐的稳健研究能力的基本要求。我们在https://github.com/GAIR-NLP/DeepResearcher发布了DeepResearcher。

发布时间: 4/7/2025

查看原文

LightPROF：一个轻量级的知识图谱推理框架用于大型语言模型

作者: Tu Ao, Yanhua Yu, Yuling Wang, Yang Deng, Zirui Guo, Liang Pang, Pinghui Wang, Tat-Seng Chua, Xiao Zhang, Zhen Cai

arXiv:2504.03137v1 公告类型: 新摘要: 大语言模型（LLMs）在文本理解和零样本推理方面表现出色。然而，知识更新的延迟可能导致它们推理错误或产生有害结果。知识图谱（KGs）通过结构化组织和连接广泛范围的实体和关系，为LLMs的推理过程提供了丰富的可靠上下文信息。现有的基于KG的LLM推理方法仅以文本形式将KG的知识注入提示，而忽略了其结构信息。此外，它们主要依赖于闭源模型或具有大量参数的大规模开源模型，这提出了高资源消耗的挑战。为了解决这个问题，我们提出了一种新的轻量级高效提示学习-推理框架（LightPROF），它以参数高效的方式利用LLMs来应对复杂的推理任务。具体来说，LightPROF 遵循“检索-嵌入-推理”过程，首先通过检索模块准确且稳定地从KG中检索相应的推理图。接着，通过基于Transformer的知识适配器，它精细提取并整合KG中的事实和结构信息，然后将这些信息映射到LLM的词元嵌入空间，生成一个LLM友好的提示供LLM最终推理使用。此外，LightPROF 只需要训练知识适配器，可以与任何开源LLM兼容。在两个公开的KGQA基准上的广泛实验表明，LightPROF 使用小型LLM实现了优越的性能。此外，LightPROF 在输入词元计数和推理时间方面显示出了显著的优势。

发布时间: 4/7/2025

查看原文

多方面提示下的语言模型指导：竞品分析案例研究

作者: Amir Hadifar, Christopher Ochs, Arjan Van Ewijk

arXiv:2504.02984v1 宣告类型: 新摘要：竞争对手分析在现代商业中至关重要，因为行业竞争对手对战略规划有影响。它涉及评估多个方面并平衡权衡，以做出明智的决策。近年来，大型语言模型(Large Language Models, LLMs)展现了在处理这种权衡方面的出色能力，但它们面临固有的局限性，如缺乏关于当前或未来现实的知识，以及对市场竞争格局的理解不完整。在本文中，我们通过将商业方面融入LLMs，以增强其对竞争市场的理解。通过定量和定性的实验，我们展示了一旦整合这些方面，模型性能得以一致性的提高，从而提高了竞争对手分析的分析有效性。

发布时间: 4/7/2025

查看原文

桥梁语言障碍：大规模语言模型在机器翻译中应用的综述

作者: Baban Gain, Dibyanayan Bandyopadhyay, Asif Ekbal

arXiv:2504.01919v2 公告类型: replace-cross 摘要：大型语言模型（LLMs）的出现显著重塑了机器翻译（MT）的格局，特别是在资源匮乏的语言和领域中，这些领域缺乏足够的平行语料库、语言工具和计算基础设施。本文综述了利用LLMs进行MT的最新进展。我们分析了诸如少量示例提示、跨语言迁移和参数高效微调等技术，这些技术能够有效适应资源匮乏的环境。文章还探讨了使用LLMs生成合成数据的策略，包括回译和词汇扩充。此外，我们比较了基于LLMs的翻译与传统编码器-解码器模型在多种语言对中的表现，突出了每种模型的优势和局限性。我们讨论了持续存在的挑战，如幻觉现象、评估不一致性和继承的偏见，并评估了新兴的LLM驱动的翻译质量指标。本文为构建在大规模生成模型时代健壮、包容和可扩展的MT系统的实践见解提供了指导，并提出了未来方向。

发布时间: 4/4/2025

查看原文

加速IoV入侵检测：GPU加速的ML库与基于CPU的ML库的 benchmarking

作者: Furkan \c{C}olhak, Hasan Co\c{s}kun, Tsafac Nkombong Regine Cyrille, Tedi Hoxa, Mert \.Ilhan Ecevit, Mehmet Nafiz Ayd{\i}n

arXiv:2504.01905v2 宣告类型: 交叉替换摘要：车联网(IoV)可能会面临具有挑战性的网络安全攻击，这可能需要复杂的安全入侵检测系统，从而需要快速的发展和响应系统。本研究探讨了与传统基于CPU的实现(scikit-learn)相比，GPU加速库(cuML)在车联网威胁检测环境中使用的机器学习模型的速度和效率上的性能优势。全面的评估采用了四种机器学习方法(随机森林、KNN、逻辑回归、XGBoost)，并在三个不同的IoV安全数据集(OTIDS、GIDS、CICIoV2024)上进行了测试。我们的研究结果表明，GPU加速的实现极大地提高了计算效率，训练时间降低了多达159倍，预测速度提高了多达95倍，同时保持了检测准确性。这一显著的性能突破使研究人员和安全专家能够利用GPU加速来创建更快、更有效的威胁检测系统，以满足当今联网车辆网络的紧迫的实时安全需求。

发布时间: 4/4/2025

查看原文

DreamActor-M1：综合、表现力强且稳健的人像动画生成与混合指导

作者: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu

arXiv:2504.01724v2 宣布类型: replace-cross 摘要: 尽管基于图像的人体动画方法在实现逼真的身体和面部动作合成方面取得了进展，但在细节控制、多尺度适应性和长时间时间连贯性方面仍存在关键差距。这导致它们的表达能力和鲁棒性较低。我们提出了一种基于扩散变换器(DiT)的框架DreamActor-M1，结合混合引导来克服这些限制。在动作引导方面，我们的混合控制信号结合了隐式面部表示、3D 头球和3D 身体骨架，实现了面部表情和身体动作的稳健控制，同时生成具有表现力且保持身份的动画。在尺度适应方面，为了处理从肖像到全身视图的各种身体姿态和图像尺度，我们采用了一种逐步训练策略，使用不同分辨率和尺度的数据。在外观引导方面，我们将来自连续帧的动作模式与互补的视觉参考相结合，确保在复杂动作中未见过的区域具有长时间连贯性。实验表明，我们的方法超过了现有的最佳工作，在肖像、上半身和全身生成方面提供了具有高表现力的结果，并且长期一致性稳健。项目页面: https://grisoon.github.io/DreamActor-M1/。

发布时间: 4/4/2025

查看原文