arXiv 论文列表

作者: Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong

arXiv:2504.12782v1 宣告类型: cross 摘要: 确保文本到图像模型的道德部署需要有效的技术来防止生成有害或不合适的内容。虽然概念擦除方法提供了一种有前景的解决方案，但现有的微调方法面临显著的局限性。无锚点方法可能会破坏采样轨迹，导致视觉伪影，而带有锚点的方法则依赖于启发式选择锚点概念。为克服这些不足，我们引入了一种名为ANT的微调框架，该框架自动引导去噪轨迹以避免不希望的概念。ANT建立在一个关键洞察之上：在中后期去噪阶段反向转换分类器自由引导的条件方向，能够在不牺牲早期阶段结构完整性的前提下实现精确内容修改。这启发了一个轨迹意识的目标，该目标保持了早期阶段评分函数场的完整性，从而引导样本向自然图像流形进发，而无需依赖启发式锚点概念选择。对于单概念擦除，我们提出了增强化扩增的权重显著性图，以精确识别最显著贡献于不希望概念的关键参数，从而实现更加彻底和高效的擦除。对于多概念擦除，我们的目标函数提供了一个多功能即插即用的解决方案，显著提升了性能。大量实验表明，ANT在单概念和多概念擦除中均取得了最先进的结果，提供了高质量、安全的输出，而不损害生成保真度。代码可在 https://github.com/lileyang1210/ANT 获取。

发布时间: 4/18/2025

查看原文

向量级检索模型中的无损令牌剪枝朝着无损令牌剪枝的Late-Interaction Retrieval Models方向

作者: Yuxuan Zong, Benjamin Piwowarski

arXiv:2504.12778v1 交叉类型: cross 摘要: 类如ColBERT的后期交互神经IR模型在许多基准测试中提供了竞争力的权衡，即效果与效率之间的权衡。然而，它们需要极大的内存空间来存储所有文档词元的上下文表示。一些工作提出了使用启发式方法或基于统计的技术来从每个文档中修剪词元。然而，这并不能保证被移除的词元对检索得分没有影响。我们使用了一种原理性的方法来定义如何修剪词元，且不会影响文档与查询之间的得分。我们引入了三种正则化损失，它们促使高修剪比例的解决方案，同时提出了两种修剪策略。我们通过实验研究（跨域和非跨域），展示了我们可以在只使用词元的30%的情况下保持ColBERT的性能。

发布时间: 4/18/2025

查看原文

多agent强化学习模拟用于环境政策合成

作者: James Rudd-Jones, Mirco Musolesi, Mar\'ia P\'erez-Ortiz

arXiv:2504.12777v1 类别: cross 摘要：气候变化政策制定面临着深邃的不确定性、复杂的系统动力学以及竞争的利益相关者利益等方面的巨大挑战。气候模拟方法，如地球系统模型，已成为政策探索有价值的工具。然而，它们通常是用于评估潜在政策，而不是直接合成政策。问题可以反转过来，以优化政策路径，但传统的优化方法往往难以处理非线性动力学、异质代理以及综合的不确定性量化。我们提出了一种框架，通过多智能体强化学习（MARL）增强气候模拟，以解决这些限制。我们确定了在气候模拟与政策合成中应用MARL之间接口的关键挑战，包括奖励定义、随代理和状态空间增加的可扩展性、关联系统中的不确定性传播以及解决方案验证。此外，我们讨论了从MARL衍生的解决方案在政策制定者面前的可解释性和实用性方面面临的挑战。我们的框架为更复杂的气候变化政策探索奠定了基础，同时承认了重要的限制和未来研究的重要领域。

发布时间: 4/18/2025

查看原文

通过符号-神经整合增强多模态大语言模型的几何问题求解能力

作者: Yicheng Pan, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Jianshu Zhang, Quan Liu, Jianqing Gao, Feng Ma

arXiv:2504.12773v1 交叉类型: cross 摘要: 近期在多模态大型语言模型（MLLMs）方面的进展已经在通用领域取得了显著进展，并在多模态数学推理方面显示出前景。然而，将MLLMs应用于几何问题求解（GPS）仍具有挑战性，原因在于缺乏精确的逐步解决方案数据以及推理过程中的严重幻觉现象。在这篇论文中，我们提出了GeoGen，一个可以自动生成几何图示的逐步推理路径的流水线。通过利用精确的符号推理，GeoGen 生成了大量高质量的问题-答案对。为了进一步增强MLLMs的逻辑推理能力，我们训练了GeoLogic，这是一个使用GeoGen生成的合成数据训练的大型语言模型（LLM）。作为自然语言和符号系统之间的桥梁，GeoLogic 使符号工具能够验证MLLM输出，从而使推理过程更加严谨，并减轻幻觉现象。实验结果表明，我们的方法持续改善了MLLMs的表现，通过几何推理任务的基准测试取得了显著成果。这种改进源于我们将大型语言模型和符号系统的优点进行了集成，这为GPS任务提供了一种更可靠且可解释的方法。代码可在 https://github.com/ycpNotFound/GeoGen 获取。

发布时间: 4/18/2025

查看原文

MCP守护者：一种以安全为主的层，用于保障基于MCP的AI系统

作者: Sonu Kumar, Anubhav Girdhar, Ritesh Patil, Divyansh Tripathi

arXiv:2504.12757v1 类型: cross 摘要：随着代理型人工智能在主流市场中的广泛采用，行业在模型能力方面进行了大量投资，实现了推理和质量的快速飞跃。然而，这些系统仍然主要局限于数据孤岛中，每次新的集成都需要使用自定义逻辑，这在扩展方面非常困难。模型上下文协议（MCP）通过定义一种通用且开放的标准，安全连接基于人工智能的应用程序（MCP客户端）和数据源（MCP服务器）来应对这一挑战。然而，MCP的灵活性引入了新的风险，包括恶意工具服务器和数据完整性被破坏。我们提出了MCP监护人框架，通过认证、速率限制、日志记录、跟踪和Web应用程序防火墙（WAF）扫描，加强了基于MCP的通信。通过实际场景和实证测试，我们展示了MCP监护人如何有效缓解攻击并确保最小开销下的强大监管。我们的方法促进了代理型人工智能助手的安全、可扩展的数据访问，强调了多层次防御方法的重要性，这种方法能够促进更安全和更透明的AI驱动环境中的创新。

发布时间: 4/18/2025

查看原文

使用大型语言模型进行轨迹适应

作者: Anurag Maurya, Tashmoy Ghosh, Ravi Prakash

arXiv:2504.12755v1 宣布类型: 交叉摘要: 根据人类指令调整机器人轨迹以适应新的情况，对于实现更具直观性和扩展性的人机交互至关重要。本文提出了一种灵活的语言框架，可以调整由RRT、A*等现成的运动规划器生成的一般机器人轨迹，或根据人类演示学习生成的轨迹。我们利用预训练的语言模型通过生成代码作为策略来调整轨迹航点，以实现密集的机器人操作，从而能够提供比现有方法更复杂和灵活的指令。这种方法允许我们融入更广泛的命令，包括数值输入。与需要训练的最先进的基于特征的序列到序列模型相比，我们的方法不需要特定任务的训练，提供了更高的可解释性和更有效的反馈机制。我们通过在Pybullet和Gazebo仿真环境中对机器人操作器、无人驾驶飞行器和地面机器人进行仿真实验验证了该方法，证明语言模型确实可以成功地将轨迹调整为复杂的human指令。

发布时间: 4/18/2025

查看原文

GPMFS：全局基础与个性化优化多标签特征选择

作者: Yifan Cao, Zhilong Mi, Ziqiao Yin, Binghui Guo, Jin Dong

arXiv:2504.12740v1 交叉公告类型摘要：随着人工智能方法在复杂任务场景中的广泛应用，高维多标签学习已成为一个突出的研究焦点。目前，高维多标签学习中的维数灾难仍然是一个主要瓶颈，可以通过多标签特征选择方法有效解决。然而，现有的多标签特征选择方法大多集中在识别跨所有标签共享的全局特征，而忽略了每个标签的个性化特征和特定要求。这种仅关注全局特征的观点可能限制了捕获标签特定区分信息的能力，从而影响整体性能。在本文中，我们提出了一种名为GPMFS（全局基础与个性化优化多标签特征选择）的新方法。GPMFS首先通过利用标签相关性识别全局特征，然后使用阈值控制策略为每个标签适当地补充个性化的区分特征子集。在多个真实世界数据集上的实验表明，GPMFS在保持强解释性和鲁棒性的同时，实现了优越的性能。此外，GPMFS提供了跨不同多标签数据集的标签特定强度的见解，从而验证了个性化特征选择方法的必要性和潜在应用价值。

发布时间: 4/18/2025

查看原文

Athenian 学院：一个多代理系统七层架构模型

作者: Lidong Zhai, Zhijie Qiu, Xizhong Guo, Jiaqi Li

arXiv:2504.12735v1 Announce Type: cross 摘要：本文提出了“雅典学院”多智能体七层框架，旨在系统地解决人工智能（AI）艺术创作中的多智能体系统（MAS）面临的协作效率、角色分配、环境适应和任务并行等挑战。该框架将MAS划分为七个层级：多智能体协作、单智能体多角色扮演、单智能体多场景穿越、单智能体多能力化身、不同的单智能体使用同一个大模型实现相同目标智能体、单智能体使用不同大模型实现相同目标智能体以及多智能体合成相同目标智能体。通过艺术创作中的实验验证，该框架展示了其在任务协作、跨场景适应和模型融合方面的独特优势。本文还讨论了当前面临的挑战，如协作机制优化、模型稳定性和系统安全性，并通过元学习和联邦学习等技术提出未来探索的建议。该框架为AI艺术创作中的多智能体协作提供了一种结构化的研究方法，并推动了艺术领域的创新应用。

发布时间: 4/18/2025

查看原文

Pandora：一个代码驱动的大语言模型代理，用于跨多种结构化知识的统一推理

作者: Yongrui Chen, Junhao He, Linbo Fu, Shenyu Zhang, Rihui Jin, Xinbang Dai, Jiaqi Li, Dehai Min, Nan Hu, Yuxin Zhang, Guilin Qi, Yi Huang, Tongtong Wu

arXiv:2504.12734v1 类别: cross 摘要: 统一结构化知识推理（USKR）旨在通过统一使用表格、数据库和知识图等结构化源来回答自然语言问题（NLQ）。现有的USKR方法要么依赖于特定任务的策略，要么依赖于自定义的表示方法，这使得它们难以利用不同SKR任务之间的知识转移或与LLM的先验知识对齐，从而限制了它们的性能。本文提出了一种名为\textsc{Pandora}的新颖USKR框架，利用\textsc{Python}的\textsc{Pandas} API构建了一种统一的知识表示，以便与LLM预训练对齐。它使用LLM为每个问题生成文本推理步骤和可执行的Python代码。演示是从包含各种SKR任务的训练示例记忆中得出的，这有助于知识转移。在涉及三个SKR任务的四个基准上进行的广泛实验表明，\textsc{Pandora}优于现有的统一框架，能够与特定任务的方法竞争。

发布时间: 4/18/2025

查看原文

用大规模语言模型模拟用户行为以评估推荐系统

作者: Nicolas Bougie, Narimasa Watanabe

arXiv:2504.12722v1 Announce Type: cross 摘要：推荐系统在众多实际应用中扮演着核心角色，然而，由于离线指标与在线行为之间的差距，评估其性能仍然是一个重大挑战。鉴于真实用户数据的稀缺性和限制（如隐私问题），我们引入了SimUSER，这是一种充当可信且经济的人类代理的代理框架。SimUSER 首先从历史数据中识别出自洽的人格，丰富用户资料，赋予其独特的背景和个人特征。然后，在这一评估中至关重要的用户，配备了人格、记忆、感知和大脑模块，与推荐系统进行互动。与以往工作相比，SimUSER 在微观和宏观层面上与真实人类更为一致。此外，我们进行了深入的实验，探讨缩略图对点击率的影响、曝光效应以及评论对用户参与度的影响。最后，基于离线A/B测试结果调整推荐系统参数，从而在实际中提高了用户的参与度。

发布时间: 4/18/2025

查看原文