arXiv 论文列表

作者: Jia-Chen Zhang, Yu-Jie Xiong, Xi-He Qiu, Chun-Ming Xia, Fei Dai

arXiv:2503.23362v1公告类型：交叉摘要：监督微调（SFT）是将大型语言模型与人类指令对齐并适应下游任务的一个里程碑。特别是，低秩适应（LoRA）因其参数效率而受到广泛关注。然而，LoRA 对提高大型模型性能的影响仍然有限。最近的研究表明，将LoRA 与专家混合（Mixture-of-Experts, MoE）结合可以显著增强微调性能。MoE 通过动态选择最合适的专家来适应数据集的多样性和复杂性，从而提高任务准确性和效率。尽管取得了令人印象深刻的成果，但最近的研究揭示了 MoE 路由机制中的问题，如错误分配和专家分配不平衡。受冗余与容错理论原则的启发，我们创新地将专家混合的概念融入路由机制，并提出了一种高效的微调方法，称为专家混合（Mixture of Routers, MoR）。MoR 使用多个子路由器进行联合选择，并使用可学习的主要路由器来确定子路由器的权重。结果显示，MoR 在大多数任务上的性能优于基线模型，平均性能改进为 1%。MoR 可以作为一种插拔即用、参数高效的微调方法，适用于广泛的应用。我们的代码可在以下链接获取：https://anonymous.4open.science/r/MoR-DFC6。

发布时间: 4/1/2025

查看原文

对象隔离注意力以实现一致的故事可视化

作者: Xiangyang Luo, Junhao Cheng, Yifan Xie, Xin Zhang, Tao Feng, Zhou Liu, Fei Ma, Fei Yu

arXiv:2503.23353v1 Announce Type: cross 摘要：开放性故事情绪可视化是一项挑战性的任务，涉及从给定故事情节生成连贯的图像序列。主要困难之一是在创建自然且符合情境的画面时保持人物一致性——许多现有方法在这方面存在问题。在本文中，我们提出了一种增强的Transformer模块，该模块利用了预训练扩散模型的先验知识，以确保逻辑场景的生成。分离的自我注意力机制通过细化注意力图来减少对无关区域的关注，突出相同角色的关键特征，从而改善人物一致性。同时，分离的交叉注意力机制独立处理每个角色的特征，避免特征融合，进一步增强一致性。值得注意的是，我们的方法无需训练，允许连续生成新的角色和故事情节，无需重新调整。定性和定量评估结果表明，我们的方法优于当前的方法，显示出其有效性。

发布时间: 4/1/2025

查看原文

超越单模态边界：具有多模态语义的生成推荐

作者: Jing Zhu, Mingxuan Ju, Yozen Liu, Danai Koutra, Neil Shah, Tong Zhao

arXiv:2503.23333v1 类别: cross 摘要: 生成推荐（GR）已成为推荐系统中的一种强大范式，它隐式地将模态和语义与项目表示联系起来，不同于之前依赖于自回归模型中的非语义项目标识符的方法。然而，之前的研究主要单独处理模态，通常假设项目的内容是单模态的（通常是文本）。我们认为，在现实世界的丰富、多模态数据和生成推荐模型对模态选择和使用的敏感性方面，这种做法存在一个显著的局限性。我们的工作旨在探索多模态生成推荐（MGR）的关键问题，强调在生成推荐框架中模态选择的重要性。我们揭示了生成推荐模型尤其对不同模态非常敏感，并探讨了在多种模态可用时实现有效生成推荐的挑战。通过评估有效利用多种模态的设计策略，我们确定了关键挑战，并引入了MGR-LF++，这是一种增强的后期融合框架，采用对比模态对齐和特殊标记来表示不同模态，与单模态替代方案相比，性能提高了超过20%。

发布时间: 4/1/2025

查看原文

SalesRLAgent：一种实时销售转化预测与优化的 reinforcement learning 方法

作者: Nandakishor M

arXiv:2503.23303v1 交叉类型: cross 摘要: 当前的销售对话分析和转化预测方法通常依赖于大型语言模型 (LLMs) 结合基本的检索增强生成 (RAG)。这些系统虽然能够回答问题，但在准确预测转化概率或实时提供战略指导方面存在不足。在本文中，我们提出了 SalesRLAgent，这是一种利用专门强化学习来在整个销售对话过程中预测转化概率的全新框架。不同于 Kapa.ai、Mendable、Inkeep 等公司的系统主要使用现成的 LLM 来生成内容，我们的方法将转化预测视为一个序列决策问题，使用 GPT-4O 生成的合成数据进行训练，以开发出专门的概率估计模型。我们的系统集成了 Azure OpenAI 向量 (3072 维)，逐轮状态跟踪，以及元学习能力，以了解其自身的知识边界。评估结果显示，SalesRLAgent 在转化预测方面的准确率达到 96.7%，比仅使用 LLM 的方法高出 34.7%，同时提供显著更快的推理速度（85ms 对比 GPT-4 的 3450ms）。此外，当代表利用我们系统提供的实时指导时，与现有销售平台的整合显示出转化率提高了 43.2%。SalesRLAgent 代表了从内容生成到战略销售智能的根本转变，为销售人员提供了逐时的转化概率估计和可操作的见解。

发布时间: 4/1/2025

查看原文

两个头胜过一个头：针对非iid数据和毒化攻击的联邦学习中模型权重和潜空间分析

作者: Xingyu Lyu, Ning Wang, Yang Xiao, Shixiong Li, Tao Li, Danjue Chen, Yimin Chen

arXiv:2503.23288v1 宣告类型: cross 摘要：联邦学习是一种流行的范式，使远程客户端能够在不共享原始数据的情况下共同训练全局模型。然而，由于其分布式特性，联邦学习已被证明对模型中毒攻击易受攻击。特别是，充当参与者的攻击者可以上传任意模型更新，从而有效破坏联邦学习的全局模型。尽管大量的研究集中于对抗这些攻击，但我们发现，大多数研究假设远程客户端的数据是i.i.d.的，而在实践中，数据是不可避免地非i.i.d.的。我们的基准评估显示，现有的防御措施普遍未能兑现其声誉，特别是在应用到各种非i.i.d.场景时。在本文中，我们提出了一种名为GeminiGuard的新颖方法，旨在解决这种显著的差距。我们设计GeminiGuard使其轻量级、通用且无需监督，以便与部署此类防御的实际需求相契合。非i.i.d.带来的主要挑战是，它们使得良性模型更新看起来更像恶意的更新。GeminiGuard主要基于两个基本观察构建：(1) 基于模型权重分析或潜在空间分析的现有防御措施在覆盖不同的MPA和非i.i.d.场景方面存在局限性；(2) 模型权重分析和潜在空间分析是足够不同的、但潜在互补的方法。因此，我们在GeminiGuard中整合了一种新颖的模型权重分析组件以及一种自定义的潜在空间分析组件，旨在进一步提高其防御性能。我们进行了广泛的实验以在各种环境下评估我们的防御措施，证明了其在对抗多种未针对性的和针对性的MPA（包括适应性MPA）方面的有效性。我们的全面评估表明，GeminiGuard在各种环境下都持续超越当前最先进的防御措施。

发布时间: 4/1/2025

查看原文

从临床文本中提取患者病史：临床大规模语言模型的比较研究

作者: Hieu Nghiem, Tuan-Dung Le, Suhao Chen, Thanh Thieu, Andrew Gin, Ellie Phuong Nguyen, Dursun Delen, Johnson Thomas, Jivan Lamichhane, Zhuqi Miao

arXiv:2503.23281v1 Announce Type: cross 摘要：提取与患者主要症状（CC）、当前病情（HPI）以及既往病史、家族史和社会史（PFSH）相关的医学历史实体（MHEs），有助于将自由文本临床笔记结构化为标准化电子病历（EHRs），简化后续任务，如连续护理、医疗编码和质量指标。通过本地部署的微调临床大语言模型（cLLMs）可以在这一过程中提供帮助，同时确保敏感数据的安全。本研究评估了cLLMs在识别CC/HPI/PFSH相关的MHEs方面的性能，并探讨了笔记特征如何影响模型准确性。我们对MTSamples库中与61份门诊相关的1,449个MHEs进行了注释。为了识别这些实体，我们微调了七个最先进的cLLMs。此外，我们还评估了通过整合问题、检查、治疗和其他基本医疗实体（BMEs）来增强模型的性能。我们将这些模型在零样本设置下与GPT-4o进行了性能对比。为了更深入地了解影响模型准确性的文本特征，我们进行了错误分析，重点关注笔记长度、实体长度和分段。cLLMs展示了通过减少超过20%的时间来提取MHEs的潜力。然而，由于MHEs的多义性和频繁涉及非医学词汇，检测许多类型的MHEs仍然具有挑战性。微调过的GatorTron和GatorTronS，两种训练最广泛的cLLMs，显示出最高的性能。整合预识别的BME信息在某些实体的表现上有所提高。关于文本特征对模型性能的影响，我们发现较长的实体更难识别，笔记长度与更高的错误率不相关，并且良好组织的带有标题的分段对提取是有益的。

发布时间: 4/1/2025

查看原文

模型上下文协议(MCP): 景观、安全威胁与未来研究方向

作者: Xinyi Hou, Yanjie Zhao, Shenao Wang, Haoyu Wang

arXiv:2503.23278v1 类型: cross 摘要: 模型上下文协议（MCP）是一种标准化接口，旨在使AI模型与外部工具和资源之间的交互无缝进行，打破数据孤岛，促进跨多种系统的互操作性。本文提供了MCP的全面概述，重点介绍了其核心组件、工作流程以及MCP服务器的生命循环，该生命周期包括三个关键阶段：创建、运行和更新。我们分析了每个阶段的安全和隐私风险，并提出了减轻潜在威胁的策略。本文还探讨了当前MCP的现状，包括其被行业领导者采用的各种用例以及支持其集成的工具和平台。我们探讨了MCP的未来发展方向，强调了影响其在更广泛的AI生态系统中采用和演进的挑战与机遇。最后，我们为MCP利益相关者提供了建议，以确保其在AI景观继续演变的过程中安全并可持续地发展。

发布时间: 4/1/2025

查看原文

改进的耳部验证方法：结合视觉变换器和重叠 patches

作者: Deeksha Arun, Kagan Ozturk, Kevin W. Bowyer, Patrick Flynn

arXiv:2503.23275v1 交叉公告类型摘要：耳纹识别由于成年后外观相对稳定，已 emerges 作为一种有前途的生物识别模ality。尽管视觉变换器（ViTs）在图像识别任务中得到了广泛应用，但在耳纹识别中的效率受到关注不足的像素块的限制，这对于捕捉精细的耳纹特征至关重要。在本研究中，我们使用重叠像素块选择策略，在OPIB、AWE、WPUT和EarVN1.0等多样化的数据集上评估了ViT-Tiny（ViT-T）、ViT-Small（ViT-S）、ViT-Base（ViT-B）和ViT-Large（ViT-L）配置。结果表明，重叠像素块的关键性，使其在48项中有44项实验中表现出色。此外，与非重叠配置的结果相比，重叠像素块的性能提高显著， EarVN1.0 数据集的提升幅度高达10%。在模型性能方面，ViT-T 模型在 AWE、WPUT 和 EarVN1.0 数据集上始终优于 ViT-S、ViT-B 和 ViT-L 模型。最高分是在 28x28 像素大小和 14 像素步幅的配置中取得的。这种像素大小-步幅配置代表了标准化图像区域的 25%（112x112 像素），对于像素大小来说，步幅占行或列大小的 12.5%。本研究表明，具有重叠像素块选择的变换器架构可以作为在验证场景中进行耳纹为基础的生物识别任务的有效且高效率的选项。

发布时间: 4/1/2025

查看原文

使用状态扩散和逆动力学模型学习协调双臂操作策略

作者: Haonan Chen, Jiaming Xu, Lily Sheng, Tianchen Ji, Shuijing Liu, Yunzhu Li, Katherine Driggs-Campbell

arXiv:2503.23271v1 交叉公告类型摘要：在进行如洗衣等任务时，人类自然地协调两只手来操作物体，并预测他们的动作将如何改变衣物的状态。然而，机器人实现这种协调仍然是一个挑战，因为需要建模物体运动、预测未来状态以及生成精确的双臂动作。本研究通过将人类操作策略的预测性质融入到机器人模仿学习中，解决了这些挑战。具体来说，我们从代理特定的逆动力学建模中分离出任务相关的状态转换，以实现有效的双臂协调。使用一个演示数据集，我们训练了一个扩散模型，根据历史观察预测未来状态，设想场景如何演变。然后，我们使用一个逆动力学模型来计算使预测状态得以实现的机器人动作。我们的关键见解是，建模物体运动有助于学习双臂协调操作任务的策略。在包括多模态目标配置、双臂操作、可变形物体和多对象配置等多样化的模拟和真实世界操作设置中，我们发现我们的框架在性能上始终优于最先进的状态到动作映射策略。我们的方法展示了出色的导航多模态目标配置和动作分布的能力，能够在不同的控制模式下保持稳定性，并且合成出比演示数据集中更多的行为。

发布时间: 4/1/2025

查看原文

基于局部图的神经动力学模型用于地形操作

作者: Chaoqi Liu, Yunzhu Li, Kris Hauser

arXiv:2503.23270v1 交叉公告类型摘要：预测模型可以特别有助于机器人在建筑工地和外层空间地表进行有效操作。然而，特别是在捕捉高分辨率细节时，地表状态的表示会变得极高地维化，尤其是在深度未知或未给定时。本文介绍了一种基于学习的方法，用于地表动力学建模和操作，利用基于图的神经动力学（GBND）框架将地表变形表示为粒子图的运动。基于地表移动部分通常局部化的原则，我们的方法构建了一个大型地表图（可能包含数百万千粒度的颗粒），但只识别了一个非常小的活跃子图（几百粒度的颗粒）来预测机器人-地表交互的后果。为了最小化活跃子图的大小，我们提出了一种基于学习的方法，该方法基于机器人的控制输入和当前场景，识别一个小的兴趣区域（RoI）。我们还引入了一种新颖的领域边界特征编码，使GBND能够在RoI内部进行准确的动力学预测，同时避免颗粒通过RoI边界穿透。我们提出的方法比朴素的GBND快几个数量级，并且在地表粒度不同的挖掘和成型任务中实现了更好的整体预测准确性。

发布时间: 4/1/2025

查看原文