arXiv 论文列表

UniGuardian：大规模语言模型中检测提示注入、后门攻击和 adversarial 攻击的统一防御方法

作者: Huawei Lin, Yingjie Lao, Tong Geng, Tan Yu, Weijie Zhao

arXiv:2502.13141v1 异常类型：交叉类型摘要：大型语言模型（LLMs）容易受到提示注入、后门攻击和对抗攻击等攻击的影响，这些攻击通过操纵提示或模型生成有害输出。在本文中，我们从传统的深度学习攻击范式出发，探索了它们的内在关系，并将它们统称为提示触发攻击（PTA）。这引出了一个关键问题：我们能否确定某个提示是无害的还是被污染的？为了应对这一问题，我们提出了UniGuardian，这是首个统一防御机制，旨在检测LLMs中的提示注入、后门攻击和对抗攻击。此外，我们引入了一次前向策略来优化检测管道，能够在单次前向传递中同时进行攻击检测和文本生成。我们的实验证实，UniGuardian能够准确且高效地识别LLMs中的恶意提示。

发布时间: 2/19/2025

查看原文

失眠之夜，甜食之日：为真实的教练代理互动创建具有健康状况的合成用户

作者: Taedong Yun, Eric Yang, Mustafa Safdari, Jong Ha Lee, Vaishnavi Vinod Kumar, S. Sara Mahdavi, Jonathan Amar, Derek Peyton, Reut Aharony, Andreas Michaelides, Logan Schneider, Isaac Galatzer-Levy, Yugang Jia, John Canny, Arthur Gretton, Maja Matari\'c

arXiv:2502.13135v1 交叉公告类型摘要：我们提出了一种端到端框架，用于生成合成用户，以评估旨在促进正面行为改变（如健康和生活方式指导）的交互式代理。合成用户在此研究中以睡眠和糖尿病管理为基础，确保与健康指导代理进行现实的互动。合成用户分两个阶段创建：首先，生成与现实世界健康和生活方式因素相关的结构化数据，以及其他基本的人口统计和行为特征；其次，在结构化数据的基础上，开发合成用户的完整资料。使用生成的基于代理的模型（如Concordia）或直接通过提示语言模型，模拟合成用户与指导代理之间的互动。通过使用两个独立开发的睡眠和糖尿病指导代理作为案例研究，通过分析指导代理对合成用户需求和挑战的理解，展示了此框架的有效性。最后，通过人专家对用户-指导者互动进行多次盲评，我们展示了与具有健康和行为特征的合成用户相比，我们的合成用户更准确地描绘了具有相同特征的真实人类用户，而这些合成用户并不基于这些特征。所提出的方法为通过大量、现实、基于特征的模拟交互高效开发对话代理奠定了基础。

发布时间: 2/19/2025

查看原文

基于不完美专家的因果发现中的学习推迟

作者: Oscar Clivio, Divyat Mahajan, Perouz Taslakian, Sara Magliacane, Ioannis Mitliagkas, Valentina Zantedeschi, Alexandre Drouin

arXiv:2502.13132v1 交叉类型: 摘要：将专家知识，例如来自大型语言模型的知识，集成到因果发现算法中可能具有挑战性，特别是在这些知识无法保证正确的情况下。专家建议可能与基于数据的结果相矛盾，其可靠性和特定领域或具体查询密切相关。现有的基于软约束或预测因果关系不一致的方法无法考虑这些专家知识的变化。为解决这一问题，我们提出了一种名为L2D-CD的方法，用于评估专家建议的正确性并将它们与基于数据的因果发现结果最优地结合起来。通过将学习-暂缓（L2D）算法应用于成对因果发现（CD），我们学习了一个暂缓函数，该函数根据文本元数据选择是依赖于基于数值数据的经典因果发现方法还是专家建议。我们使用经典的Tübingen成对数据集评估了L2D-CD，并展示了其在单独使用因果发现方法和专家时的优越性能。此外，我们的方法识别出了专家表现强劲或较弱的领域。最后，我们概述了将该方法推广到具有更多变量的图形上的因果发现策略，为该领域的进一步研究铺平了道路。

发布时间: 2/19/2025

查看原文

magma：多模态 AI 代理的基础模型

作者: Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao

arXiv:2502.13130v1 Announce Type: cross 摘要：我们提出了Magma，一种服务于数字世界和物理世界的多模态AI自主任务的基座模型。Magma是对视觉-语言（VL）模型的一个显著扩展，不仅保留了后者在语言理解能力（口头智能）方面的能力，还具备在视觉-空间世界（时空智能）中进行规划和行动的能力，并能完成从UI导航到机器人操作等一系列自主任务。为了赋予其自主能力，Magma在大量跨模态数据集上进行了预训练，这些数据集涵盖了从图片、视频到机器人数据等多个领域，其中，图片中的行动可执行视觉对象（例如GUI中的可点击按钮）通过Set-of-Mark（SoM）进行标注，以便于动作定位，视频中的物体运动（例如人类手部或机器人手臂的轨迹）则通过Trace-of-Mark（ToM）进行标注，以便于进行动作规划。广泛的实验表明，SoM和ToM在协同作用方面取得巨大成效，有助于Magma模型获取时空智能，这对于包括图1所示的各种任务都是基础性的。特别是，Magma在UI导航和机器人操作任务上创造了新的状态最先进成果，超越了专门为此类任务训练的先前模型。在图像和视频相关的多模态任务上，Magma也优于在更大数据集上训练的流行多模态模型。我们将在https://microsoft.github.io/Magma开放我们的模型和代码以实现可重复性。

发布时间: 2/19/2025

查看原文

SongGen：用于文本到歌曲生成的单阶段自回归变压器

作者: Zihan Liu, Shuangrui Ding, Zhixiong Zhang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

arXiv:2502.13128v1 类别：交叉学科摘要：文本到歌曲生成，即从文本输入中生成人声和伴奏的任务，由于领域复杂性和数据稀缺性，面临着巨大的挑战。现有方法通常采用多阶段生成过程，导致训练和推理管道复杂繁琐。在本文中，我们提出了一种名为SongGen的完全开源单阶段自回归变换器，专门用于可控歌曲生成。该提出的模型细粒度地控制了多种音乐属性，包括歌词、乐器描述、风格、情绪和音色，同时也提供了一个可选的三秒参考片段用于声音克隆。在统一的自回归框架下，SongGen 支持两种输出模式：混合模式，直接生成人声和伴奏的混合物；单轨模式，分别合成它们，以在下游应用中提供更大的灵活性。我们在每种模式下探索了多样化的令牌模式策略，取得了显著的改进和有价值的见解。此外，我们设计了一个有效的数据预处理自动化管道，进行质量控制。为了促进社区参与和未来研究，我们将发布我们的模型权重、训练代码、标注数据和预处理管道。生成样本将在我们的项目页面 https://liuzh-19.github.io/SongGen/ 上展示，代码将发布在 https://github.com/LiuZH-19/SongGen 。

发布时间: 2/19/2025

查看原文

适应心理语言学研究用于LLMs：核心ference情境下的性别包容语言

作者: Marion Bartl, Thomas Brendan Murphy, Susan Leavy

arXiv:2502.13120v1 交叉类型: cross 摘要：性别包容性语言通常用于确保所有个体，不论其性别，都可以与某些概念相关联。虽然心理学语言学研究已经探讨了它对人类认知的影响，但对于大型语言模型（LLMs）如何处理性别包容性语言仍然不清楚。鉴于商业LLMs在日常应用中的作用日益增强，有必要研究LLMs实际上是否以中立的方式解释性别包容性语言，因为它们生成的语言有可能影响用户的语言使用。本研究探讨LLM生成的代词是否与给定的性别表达相符，或者反映模型的偏差。将法语的心理语言学方法调整为英语和德语，我们发现，在英语中，LLM通常保持先行词的性别，但表现出潜在的男性偏向。而在德语中，这种偏向更强，能够覆盖所有测试的性别中性化策略。

发布时间: 2/19/2025

查看原文

统计编程中大规模语言模型的性能评估

作者: Xinyi Song, Kexin Xie, Lina Lee, Ruizhe Chen, Jared M. Clark, Hao He, Haoran He, Jie Min, Xinlei Zhang, Simin Zheng, Zhiyang Zhang, Xinwei Deng, Yili Hong

arXiv:2502.13117v1 类型：交叉摘要：大型语言模型（LLMs）的编程能力已彻底革新了自动代码生成，并开辟了自动统计分析的新途径。然而，在这些生成的代码可以广泛应用之前，需要系统地评估它们的有效性和质量。尽管LLMs的重要性日益增加，但有关由LLMs生成的统计代码的全面评估在文献中仍相对稀缺。本文评估了包括两个版本的ChatGPT和一个版本的Llama在内的LLMs在统计分析领域的SAS编程中的性能。我们的研究利用了一个涵盖多种统计主题和数据集的统计分析任务集。每个任务包括问题描述、数据集信息以及由人类验证的SAS代码。我们通过基于正确性、有效性、可读性、可执行性和输出结果准确性的人工专家评估，对LLMs生成的SAS代码的质量进行了综合评估。评分分析表明，虽然LLMs在生成语法正确的代码方面表现出有用性，但在需要深入领域理解的任务中却存在困难，可能会产生冗余或不正确的结果。本文为了解LLMs在统计编程中的能力和局限性提供了有价值的见解，并为未来辅助统计分析的AI编程系统的进展提供了指导。

发布时间: 2/19/2025

查看原文

近最优私有学习在线性上下文bandits中

作者: Fan Chen, Jiachun Li, Alexander Rakhlin, David Simchi-Levi

arXiv:2502.13115v1 私人学习类型: 交叉摘要: 我们分析了广义线性上下文臂拉伯问题中的私人学习问题。我们的方法基于一种新颖的加权回归方法，从而得到了在联合隐私模型和局部隐私模型中分别具有$\sqrt{T}+\frac{1}{\alpha}$和$\frac{\sqrt{T}}{\alpha}$遗憾损失的有效算法。此外，我们提供了近乎最优的私有程序，这些程序在私人线性模型和线性上下文臂拉伯问题中实现了维数无关的速度。特别是，我们的结果表明，在我们考虑的所有设置中，联合隐私几乎“免费”，部分解决了Azize和Basu（2024）提出的一个开放问题。

发布时间: 2/19/2025

查看原文

基于多任务学习提高临床问题解答：一种联合答案提取与医学分类的方法

作者: Priyaranjan Pattnayak, Hitesh Laxmichand Patel, Amit Agarwal, Bhargava Kumar, Srikant Panda, Tejaswini Kumar

arXiv:2502.13108v1 Announce Type: cross 摘要：临床问题回答（CQA）在医疗决策中扮演着重要角色，使医生能够从电子医疗记录（EMRs）中提取相关信息。虽然基于变换器的模型如BERT、BioBERT和ClinicalBERT在CQA上展示了最先进的性能，但现有的模型缺乏对提取答案进行分类的能力，这对于结构化检索、内容过滤和医疗决策支持至关重要。为了解决这一局限性，我们引入了一个多任务学习（MTL）框架，该框架同时训练用于回答提取和医疗分类的CQA模型。除了预测答案跨度外，我们的模型还将响应分类为五个标准化的医学类别：诊断、药物、症状、程序和实验室报告。这种分类能够生成更结构化和可解释的输出，使临床QA模型在实际医疗环境中更具用处。我们在emrQA上评估了我们的方法，emrQA是一个大型的医疗问答数据集。结果显示，与标准微调相比，MTL在F1分数上提高了2.2%，而在答案分类上的准确率达到90.7%。这些发现表明，MTL不仅提高了CQA性能，还引入了一种有效的分类和结构化医学信息检索机制。

发布时间: 2/19/2025

查看原文

Text2World：符号世界模型生成的大语言模型基准测试

作者: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo

arXiv:2502.13092v1 交叉类型: 宣布摘要：最近，人们越来越关注利用大规模语言模型（LLMs）从文本描述中生成符号世界模型。尽管LLMs已经在世界建模的背景下得到了广泛探索，但之前的研究所遇到的一些挑战包括评估随机性、依赖间接指标以及研究范围有限。为了解决这些问题，我们基于规划领域定义语言（PDDL）引入了一个新型基准Text2World，该基准包含数百个多样化的领域，并采用了多标准、执行基于的指标来进行更稳健的评估。我们使用Text2World对当前的LLMs进行了基准测试，并发现使用大规模强化学习进行训练的推理模型的表现优于其他模型。然而，即使是表现最好的模型，在世界建模方面的能力也有限。基于这些见解，我们探讨了几种增强LLMs世界建模能力的有希望的策略，包括测试时扩展、代理训练等。我们希望Text2World可以作为一个重要的资源，为未来利用LLMs作为世界模型的研究奠定基础。项目的页面可以在https://text-to-world.github.io/获取。

发布时间: 2/19/2025

查看原文