arXiv 论文列表

多任务混乱：揭示和缓解大型语言模型微调中的安全漏洞

大型语言模型 (LLM) 在代码生成、机器翻译、情感分析等众多任务中取代了传统方法。红队/安全对齐工作表明，在良性（无害）数据上微调模型可能会损害安全性。然而，这种现象在多大程度上受微调任务、模型校准等不同变量的影响尚不清楚。本文探讨了在各种校准下，针对摘要、代码生成、翻译和分类等下游任务进行微调导致的任务级安全降级。我们的结果表明：1）针对代码生成和翻译微调 LLM 会导致安全护栏降级最为严重。2）LLM 在翻译和分类方面通常具有较弱的护栏，在基线和其他校准中，73-92% 的有害提示的答案属于两个关注类别之一。3）当前的解决方案，包括护栏和安全微调数据集，缺乏跨任务鲁棒性。为了解决这些问题，我们开发了一个新的多任务安全数据集，有效地降低了各种任务的攻击成功率，而不会损害模型的整体有用性。我们的工作强调了需要通用的对齐措施来确保模型更加安全和稳健。

发布时间: 9/25/2024

查看原文

大型语言模型中的奖励鲁棒性强化学习人类反馈

随着大型语言模型 (LLMs) 持续朝着更高级的智能形式发展，来自人类反馈的强化学习 (RLHF) 越来越被视为实现通用人工智能 (AGI) 的关键途径。然而，对基于奖励模型 (RM) 的对齐方法的依赖带来了重大挑战，因为奖励模型 (RMs) 本身存在固有的不稳定性和缺陷，这会导致奖励黑客攻击和与人类意图不一致等关键问题。在本文中，我们提出了一种奖励鲁棒的 RLHF 框架，旨在解决这些基本挑战，为 LLMs 中更可靠和更具弹性的学习铺平道路。我们的方法引入了一种新颖的优化目标，通过整合贝叶斯奖励模型集成 (BRME) 来对奖励函数的不确定性集进行建模，从而谨慎地平衡性能和鲁棒性。这使得该框架能够整合名义性能和最小奖励信号，即使在奖励模型不完善的情况下也能确保更稳定的学习。实证结果表明，我们的框架在各种基准测试中始终优于传统的 RLHF，显示出更高的准确性和长期稳定性。我们还提供了理论分析，证明了奖励鲁棒的 RLHF 接近了恒定奖励设置的稳定性，这在随机情况分析中被证明是有效的。这些贡献共同突出了该框架在增强 RLHF 与 LLM 对齐的性能和稳定性方面的潜力。

发布时间: 9/25/2024

查看原文

步步为营：可观察和模块化的思维链

我们提出了一种名为程序轨迹提示的思维链 (CoT) 提示变体，它在保留 CoT 的强大功能、通用性和灵活性的同时，使解释更易于观察。在我们的方法中，少量样本 CoT 演示被包装在基于 Python 的正式语法中，每个提示：识别和命名步骤；定义步骤的输入/输出行为；并将上下文示例中 CoT 解释替换为在相同示例上这些形式化步骤的链。程序轨迹提示适用于许多任务，在 BIG-Bench Hard 基准测试中的 23 个不同任务上取得了显著的成果。更重要的是，通过以这种方式对解释进行检测，我们能够进行新的类型分析。特别是，我们识别出“非局部错误”（对应于错误地学习演示中说明的推理方法）作为 CoT 学习中一个尚未解决的问题，并且我们提出了验证 CoT 解释中步骤的模块化的方法。

发布时间: 9/25/2024

查看原文

低延迟检索增强生成中的块注意力机制

我们提出了一种名为“块注意力”的注意力机制，旨在解决检索增强生成 (RAG) 场景中推理延迟增加的问题。其主要思想是将输入序列划分为多个块，每个块独立计算其键值 (KV) 状态，最后一个块除外。在 RAG 场景中，通过将每个段落定义为一个块，“块注意力”使我们能够预先计算所有段落的 KV 状态并将其缓存到内存中。实现涉及块分割、位置编码计算以及微调 LLM 以适应“块注意力”机制。在四个 RAG 基准上的实验表明，在块微调后，“块注意力”模型可以实现与自注意力模型相当 (Llama3 上为 68.4% 对比 67.9%) 或甚至更好的性能 (Mistral 上为 62.8% 对比 59.6%)。值得注意的是，“块注意力”将 TTFT 降低到非常低的水平。对于总长度为 32K 的输入序列，它只需要 45 毫秒即可输出第一个标记。与自注意力模型相比，时间消耗降低了 98.7%。

发布时间: 9/25/2024

查看原文

回忆：赋能边缘设备的多模态嵌入

人类记忆天生容易遗忘。为了解决这个问题，人们引入了多模态嵌入模型，将各种现实世界数据转化为统一的嵌入空间。这些嵌入可以高效地检索，帮助移动用户回忆过去的信息。然而，随着模型复杂度的增加，其资源需求也随之增长，导致吞吐量下降，计算需求增加，限制了移动设备的实现。本文介绍了 RECALL，一种针对资源受限的移动环境优化的全新设备端多模态嵌入系统。RECALL 通过生成粗粒度嵌入并利用基于查询的过滤来进行精确检索，从而实现高吞吐量、准确的检索。实验结果表明，RECALL 在保持高吞吐量的同时，能够生成高质量的嵌入，并以最小的内存和能量消耗实现无感知运行。

发布时间: 9/25/2024

查看原文

可解释人工智能：医疗人工智能良好解释的定义和属性

基于日益复杂和精确的预测模型的**人工智能 (AI)** 解决方案的提议在许多学科中变得无处不在。随着这些模型复杂性的增加，透明度和用户的理解往往会下降。这表明，仅靠准确预测不足以使基于人工智能的解决方案真正有用。在医疗保健系统的开发中，这引入了与问责制和安全相关的新的问题。理解人工智能系统如何以及为何提出建议可能需要对其内部运作和推理过程进行复杂的解释。虽然近年来对可解释人工智能 (XAI) 的研究显著增加，并且医学界对 XAI 的需求很高，但对什么是好的解释的定义仍然是特设的，提供足够的解释仍然具有挑战性。为了充分发挥人工智能的潜力，对于安全关键型人工智能应用（如医疗保健人工智能）的解释，必须解决两个基本问题：（1）医疗保健人工智能中的解释是什么？（2）医疗保健人工智能中好的解释的属性是什么？在本研究中，我们检查了已发表的文献，并通过两轮德尔菲研究收集了专家意见。研究成果包括（1）对医疗保健人工智能中什么是解释的定义，以及（2）一个全面列出医疗保健人工智能中好的解释特征的清单。

发布时间: 9/25/2024

查看原文

重温 2024 年 Meta KDD Cup 解决方案：CRAG

本文介绍了我们在Meta KDD CUP 2024：CRAG综合RAG基准挑战赛中，团队APEX的解决方案。CRAG基准旨在解决现有问答基准在评估检索增强生成（RAG）系统面临的各种动态挑战方面的局限性。它提供了对RAG性能的更全面评估，并有助于推动该领域的研究。我们提出了一种基于路由的领域和动态自适应RAG管道，该管道针对所有三个阶段（检索、增强和生成）中问题的多样性和动态性进行特定处理。我们的方法在CRAG上取得了优异的性能，并在最终比赛排行榜上获得了任务2和3的第二名。我们的实现代码可在以下链接获取：https://github.com/USTCAGI/CRAG-in-KDD-Cup2024。

发布时间: 9/25/2024

查看原文

因果驱动联合通信与感知强化学习

下一代无线网络，6G 及其未来，设想将通信与感知相结合，以克服干扰，提高频谱效率，并降低硬件和功耗。基于大规模多输入多输出 (mMIMO) 的联合通信与感知 (JCAS) 系统实现了 6G 应用（例如自动驾驶）中的这种集成，因为它需要准确的环境感知和与附近车辆的实时通信。现有的文献中使用强化学习 (RL) 来进行 mMIMO 天线波束成形。然而，与天线波束成形相关的动作搜索空间巨大，导致 RL 智能体的学习过程效率低下，因为波束训练开销很高。学习过程没有考虑动作空间与奖励之间的因果关系，并且对所有动作赋予同等重要性。在这项工作中，我们探索了一种因果感知的 RL 智能体，它可以在训练阶段干预并发现基于 mMIMO 的 JCAS 环境的因果关系。我们使用状态相关的动作维数选择策略来实现基于 RL 的 JCAS 的因果发现。在不同 JCAS 场景中对因果感知 RL 框架的评估表明，我们提出的框架在波束成形增益方面优于基线方法。

发布时间: 9/25/2024

查看原文

评估专业化大型语言模型对临床决策支持中医生体验的影响：Ask Avo 与 ChatGPT-4 的比较

大型语言模型 (LLMs) 在增强临床决策支持系统方面的应用引起了越来越多的关注，但目前存在的缺陷，如幻觉和缺乏明确的来源引用，使其在临床环境中不可靠。本研究评估了 AvoMD 开发的基于 LLM 的软件 Ask Avo，该软件包含专有的语言模型增强检索 (LMAR) 系统、内置视觉引用提示以及针对与医师交互而设计的提示工程，并将其与 ChatGPT-4 在模拟临床场景环境中的最终用户体验方面进行了比较。62 名研究参与者向两个模型提出了 8 个源自不同专业的医疗指南文件的临床问题，每个响应在可信度、可操作性、相关性、全面性和友好格式方面从 1 到 5 进行评分。在所有标准上，Ask Avo 的表现明显优于 ChatGPT-4：可信度（4.52 对 3.34，p<0.001），可操作性（4.41 对 3.19，p<0.001），相关性（4.55 对 3.49，p<0.001），全面性（4.50 对 3.37，p<0.001）和友好格式（4.52 对 3.60，p<0.001）。我们的研究结果表明，针对临床医师需求而专门设计的 LLM 在用户体验方面可以比通用 LLM 有显著的改进。Ask Avo 基于证据的方法，针对临床医师的需求量身定制，显示出在采用 LLM 增强的临床决策支持软件方面的希望。

发布时间: 9/25/2024

查看原文

ELLIPS：一种以伦理为中心的基于大型语言模型推断精神疾病的研究方法

随着全球心理健康保健系统难以满足需求，人们越来越关注使用语言模型从语言表达中推断神经精神疾病或心理病理特征。然而，到目前为止，由于对确保潜在应用和模型设计之间协同作用至关重要的伦理问题考虑不足，这项研究只产生了临床应用有限的解决方案。为了加速向临床适用模型的进展，我们的论文描绘了基于语言推断心理病理学的伦理景观，并为研究人员提供了一个实用的工具来导航它。我们确定了七项核心伦理原则，这些原则应该指导该领域的模型开发和部署，并将它们转化为 ELLIPS，一个将这些原则转化为问题的伦理工具包，这些问题可以指导研究人员在数据选择、架构、评估和模型部署方面做出选择，并提供一个案例研究来说明其使用。通过此，我们旨在促进具有现实世界应用潜力的模型技术的出现。

发布时间: 9/25/2024

查看原文