arXiv 论文列表

公正还是偏见？量化 LLM 作为法官的偏见

作者: Jiayi Ye, Yanbo Wang, Yue Huang, Dongping Chen, Qihui Zhang, Nuno Moniz, Tian Gao, Werner Geyer, Chao Huang, Pin-Yu Chen, Nitesh V Chawla, Xiangliang Zhang

大型语言模型 (LLM) 作为评判者已被广泛应用于各种基准测试的评估方法中，并作为监督奖励在模型训练中发挥作用。然而，尽管它们在许多领域表现出色，但潜在问题尚未得到充分探索，这削弱了它们的可靠性和实用范围。因此，我们识别了 12 种关键的潜在偏差，并提出了一种新的自动化偏差量化框架 CALM，该框架通过使用自动化和原则引导的修改系统地量化和分析 LLM 作为评判者中的每种偏差类型。我们的实验涵盖了多个流行的语言模型，结果表明，虽然先进的模型在整体性能上取得了可喜的成果，但在某些特定任务中仍然存在显著的偏差。实证结果表明，LLM 作为评判者的可靠性仍有提升空间。此外，我们还讨论了这些偏差的显性和隐性影响，并对 LLM 作为评判者的可靠应用提出了一些建议。我们的工作强调了利益相关者需要解决这些问题，并提醒用户在使用 LLM 作为评判者时要谨慎。

发布时间: 10/7/2024

查看原文

大型语言模型推理能力：RAG能提供多少帮助？

作者: Jingyu Liu, Jiaen Lin, Yong Liu

检索增强生成 (RAG) 在现代大型语言模型 (LLM) 中获得了极大关注，因为它能够有效地引入新知识并减少幻觉。然而，人们对 RAG 的深入理解仍然有限，RAG 如何帮助推理过程以及 RAG 是否能够帮助提高推理能力仍然是一个疑问。虽然外部文档通常被视为一种整合领域特定信息的途径，但它们也包含与查询相关的中间推理结果，这表明文档可以增强 LLM 的推理能力，而这方面尚未得到探索。本文深入研究了这个问题，发现 RAG 可以帮助推理，但帮助有限。如果我们将推理过程概念化为一个固定深度的树，那么 RAG 难以帮助 LLM 执行更深层的推理。此外，文档中的信息需要预处理以过滤掉噪声。我们证明，这种预处理很难仅仅通过微调 LLM 来实现，它通常需要许多额外的 Transformer 层来解决问题。为了简化问题，我们提出了 DPrompt 调优，它能够在有限的 Transformer 层内有效地解决问题，从而提高性能。

发布时间: 10/7/2024

查看原文

SCA：高效语义一致的无限制对抗攻击

作者: Zihao Pan, Weibin Wu, Yuhang Cao, Zibin Zheng

不受约束的对抗攻击通常会操纵图像的语义内容（例如颜色或纹理）来创建既有效又逼真的对抗样本。最近的一些工作利用扩散反转过程将图像映射到潜在空间，在该空间中通过引入扰动来操纵高级语义。然而，这些方法往往会导致去噪输出中出现大量的语义失真，并且效率低下。在本研究中，我们提出了一种名为语义一致不受约束对抗攻击（SCA）的新框架，该框架采用了一种反转方法来提取易于编辑的噪声图，并利用多模态大型语言模型（MLLM）在整个过程中提供语义指导。在 MLLM 提供丰富语义信息的情况下，我们使用一系列易于编辑的噪声图执行每一步的 DDPM 去噪过程，并利用 DPM Solver++ 来加速此过程，从而实现语义一致的有效采样。与现有方法相比，我们的框架能够有效生成对抗样本，这些样本表现出最小的可辨认语义变化。因此，我们首次引入了语义一致对抗样本（SCAE）。大量的实验和可视化证明了 SCA 的高效率，特别是其速度平均比最先进的攻击快 12 倍。我们的代码可以在 https://github.com/Pan-Zihao/SCA 找到。

发布时间: 10/7/2024

查看原文

系好安全带：通过数据整理在每个定制阶段增强大型语言模型的鲁棒性

作者: Xiaoqun Liu, Jiacheng Liang, Luoxi Tang, Chenyu You, Muchao Ye, Zhaohan Xi

大型语言模型 (LLMs) 通过称为“定制”的过程广泛地应用于下游应用，其中微调是整合特定领域专业知识的常用方法。然而，最近的研究表明，用恶意样本微调 LLMs 会损害其鲁棒性并放大有害内容，这种攻击被称为“越狱”。为了减轻这种攻击，我们提出了一种有效的防御框架，利用数据整理来修改常识文本，并从 LLMs 的角度增强其安全性。整理后的文本可以减轻定制过程各个阶段的越狱攻击：在定制之前，使 LLMs 免受未来越狱企图的侵害；在定制期间，消除越狱风险；或在定制之后，恢复受损模型。由于整理后的数据通过标准微调工作流程增强了 LLMs，因此我们在 LLM 推理过程中没有引入额外的模块，从而保留了原始的定制过程。实验结果表明，越狱效应大幅降低，在生成负责任的响应方面取得了高达 100% 的成功率。值得注意的是，我们的方法即使使用常识文本也同样有效，而常识文本往往比安全相关数据更容易获得。凭借全阶段防御框架和支持的实验性能，这项工作代表着在减轻越狱风险和确保 LLMs 安全定制方面取得了重大进展。

发布时间: 10/7/2024

查看原文

POSIX：大型语言模型的提示敏感性指标

作者: Anwoy Chatterjee, H S V N S Kowndinya Renduchintala, Sumit Bhatia, Tanmoy Chakraborty

尽管大型语言模型 (LLM) 拥有非凡的能力，但它们对提示的微小变化却出奇地敏感，经常对提示的微小变化（如拼写错误、措辞更改或提示模板）产生显著不同的输出。然而，在评估 LLM 的质量时，人们往往只关注其在下游任务中的表现，而对提示敏感性却很少关注。为了填补这一空白，我们提出了 POSIX——一个新颖的提示敏感性指数，它可以作为提示敏感性的可靠衡量指标，从而提供对 LLM 性能的更全面评估。POSIX 背后的关键思想是捕捉给定响应的 loglikelihood 在用不同的意图保留提示替换相应提示时发生的相对变化。我们提供了充分的经验证据，证明了 POSIX 在捕捉提示敏感性方面的有效性，并随后用它来衡量和比较各种开源 LLM 的提示敏感性。我们发现，仅仅增加参数数量或指令微调并不一定能降低提示敏感性，而添加一些少样本示例，甚至只有一个，几乎总是会导致提示敏感性显著降低。我们还发现，对于 MCQ 类型任务，提示模板的更改会导致最高的敏感性，而对于开放式生成任务，释义会导致最高的敏感性。用于重现我们结果的代码已在 https://github.com/kowndinya-renduchintala/POSIX 上开源。

发布时间: 10/7/2024

查看原文

贝叶斯-CATSI：一种用于医疗时间序列数据插补的变分贝叶斯深度学习框架

作者: Omkar Kulkarni, Rohitash Chandra

医疗时间序列数据集的特点是存在缺失值，需要数据插补方法，然而，传统的机器学习模型由于缺乏对预测结果的不确定性量化而无法满足要求。在这些模型中，CATSI（上下文感知时间序列插补）因其在插补过程中融入上下文向量，捕捉每个患者的全局依赖关系而脱颖而出。本文提出了一种贝叶斯上下文感知时间序列插补（Bayes-CATSI）框架，该框架利用变分推断提供的 Uncertainty Quantification。我们考虑了来自脑电图 (EEG)、眼电图 (EOG)、肌电图 (EMG) 和心电图 (EKG) 的时间序列。变分推断假设后验分布的形状，并通过最小化 Kullback-Leibler (KL) 散度找到最接近真实后验分布的变分密度。因此，我们将变分贝叶斯深度学习层集成到 CATSI 模型中。我们的结果表明，Bayes-CATSI 不仅提供 Uncertainty Quantification，而且在插补性能方面也优于 CATSI 模型。具体来说，Bayes-CATSI 的一个实例比 CATSI 提高了 9.57%。我们提供了一个开源代码实现，用于将 Bayes-CATSI 应用于其他医疗数据插补问题。

发布时间: 10/7/2024

查看原文

当一个语言模型被优化用于推理时，它是否仍然表现出自回归的痕迹？对 OpenAI o1 的分析

作者: R. Thomas McCoy, Shunyu Yao, Dan Friedman, Mathew D. Hardy, Thomas L. Griffiths

大型语言模型（LLMs）在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于LLMs的方法...

发布时间: 10/7/2024

查看原文

循环神经网络就足够了吗？

作者: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh

大型语言模型 (LLMs) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLMs 的方法...

发布时间: 10/7/2024

查看原文

M2Distill：面向终身模仿学习的多模态蒸馏

作者: Kaushik Roy, Akila Dissanayake, Brendan Tidd, Peyman Moghadam

针对操控任务的终身模仿学习，由于增量学习步骤中出现的分布偏移，带来了巨大挑战。现有的方法通常集中于无监督技能发现，以构建不断增长的技能库或从多个策略中进行蒸馏，这会导致可扩展性问题，因为各种操控任务不断被引入，并且可能无法在整个学习过程中确保一致的潜在空间，从而导致对先前学习技能的灾难性遗忘。本文介绍了 M2Distill，一种基于多模态蒸馏的终身模仿学习方法，重点在于在整个学习过程中保持视觉、语言和动作分布的潜在空间一致。通过调节从先前步骤到当前步骤的不同模态的潜在表示中的偏移，以及减少连续学习步骤之间高斯混合模型 (GMM) 策略的差异，我们确保学习到的策略保留执行先前学习任务的能力，同时无缝地整合新的技能。在 LIBERO 终身模仿学习基准套件（包括 LIBERO-OBJECT、LIBERO-GOAL 和 LIBERO-SPATIAL）上的大量评估表明，我们的方法在所有评估指标上始终优于以前的最先进方法。

发布时间: 10/7/2024

查看原文

指纹质量与人口统计的大规模运行研究

作者: Javier Galbally, Aleksandrs Cepilovs, Ramon Blanco-Gonzalo, Gillian Ormiston, Oscar Miguel-Hurtado, Istvan Sz. Racz

尽管一些初步研究在少量数据集中表明指纹识别技术在某些人口群体中存在一定程度的偏差，但仍然缺乏足够的证据来理解性别、年龄或指纹类型等因素对指纹质量的影响，进而也对指纹匹配精度造成的影响。本文针对这一尚待深入研究的课题，利用包含近 16,000 名受试者 10 指指纹印模的大规模运营数据进行了研究。研究结果进一步揭示了指纹质量与人口统计特征之间的依赖关系，并表明指纹识别系统在不同人群中确实存在一定程度的性能差异。基于实验评估，本文基于数据驱动证据指出了新的观察结果，提供了解释这些观察结果的合理假设，并得出结论，提出了一系列潜在的后续行动，可以帮助减少观察到的指纹质量差异。因此，本文可以被认为是为进一步提高生物识别技术算法公平性和平等性做出的贡献。

发布时间: 10/7/2024

查看原文