大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法……
直接从偏好中对齐(DAP)已成为一种很有前景的范式,用于将大型语言模型(LLM)与从预先收集的离线偏好数据集中获得的人类愿望进行对齐。虽然最近的研究表明现有的离线 DAP 方法可以直接从在线训练样本中受益,但我们强调需要开发专门的在线 DAP 算法来充分利用在线训练的强大功能。具体来说,我们发现学习到的 LLM 应该遵循收集训练样本的行为 LLM 的邻近性。为此,我们提出了行为 LLM 邻近的在线偏好优化(BPO),强调为 LLM 对齐构建适当的信任区域的重要性。
我们进行了广泛的实验,通过将我们的方法与各种 DAP 方法集成,验证了我们方法的有效性和适用性,从而在使用相同数量的偏好数据进行训练时,在各种任务中获得了显著的性能提升。即使只引入一个额外的數據收集阶段,我们的在线 BPO 也将它的离线 DAP 基线从 TL;DR 的 72.0% 提升到 80.2%,并将 Anthropic 有用性的基线从 82.2% 提升到 89.1%,这是以相对于人类参考文本的获胜率来衡量的。
当大型语言模型 (LLM) 准确地聚合相关信息时,推理能力最为强大。我们通过要求 LLM 分析体育叙事来检验信息聚合在推理中的关键作用。为了成功完成这项任务,LLM 必须从行动中推断出得分,识别相关实体,准确地将得分归因于球员和球队,并汇集关键统计数据以得出结论。我们使用真实的 NBA 篮球数据进行了全面的实验,并提出了 SportsGen,一种合成比赛叙事的新方法。通过合成数据,我们可以严格评估 LLM 在具有不同叙事长度和信息密度的复杂场景下的推理能力。我们的研究结果表明,大多数模型,包括 GPT-4o,由于频繁的得分模式,往往无法准确地聚合篮球得分。开源模型如 Llama-3 进一步遭受了严重的得分幻觉。最后,推理的有效性受叙事复杂性、信息密度和特定领域术语的影响,突出了分析推理任务中的挑战。
从人类反馈中进行强化学习(RLHF)是使大型语言模型(LLM)更符合人类价值观的一种很有前景的解决方案。由于其成本效益和可扩展性,从其他模型中获取偏好数据的离线偏好优化被广泛采用。然而,离线偏好优化通常会遇到数据收集策略和目标策略之间的分布差距,导致优化效果不佳。本文提出了一种新策略,通过模拟在线学习来缓解这个问题,使用离线偏好数据。我们的加权偏好优化(WPO)方法通过根据当前策略下的概率对偏好对进行重新加权,使离线数据更接近于在线数据。该方法不仅解决了分布差距问题,而且在不产生额外成本的情况下,还增强了优化过程。我们在指令遵循基准上验证了我们的方法,包括 Alpaca Eval 2 和 MT-bench。WPO 在 Alpaca Eval 2 上比直接偏好优化(DPO)的性能高出 5.6%,并且根据 Gemma-2-9b-it,在与 GPT-4-turbo 的长度控制比赛中,取得了 76.7% 的惊人胜率。我们在 https://github.com/wzhouad/WPO 上发布了代码和模型。
大型语言模型 (LLM) 中“遗忘”特定概念的任务近年来引起了极大关注,因为它对于减轻模型的不良行为至关重要,例如生成有害、私密或不正确的信息。当前评估遗忘方法的协议主要依赖于行为测试,而没有监控模型参数中遗忘知识的存在。这种残留知识可以被恶意利用,在遗忘后恢复已删除的信息。我们认为遗忘也应该在内部进行评估,通过考虑遗忘概念的参数知识轨迹的变化。为此,我们提出了一种通用的评估方法,利用词汇投影来检查模型参数中编码的概念。我们使用这种方法来定位“概念向量”——编码具体概念的参数向量——并构建 ConceptVectors,一个包含数百个常见概念及其在两个开源 LLM 中的参数知识轨迹的基准数据集。在 ConceptVectors 上的评估表明,现有的遗忘方法对概念向量的影响很小,并且主要在推理过程中抑制它们,而直接消融这些向量则可以明显消除相关知识,并显著降低模型对对抗性操纵的敏感性。我们的结果突出了基于行为的遗忘评估的局限性,并呼吁未来的工作将参数化评估纳入其中。为了支持这一点,我们在 https://github.com/yihuaihong/ConceptVectors 上发布了我们的代码和基准。
本研究提出了一个假设检验框架,用于评估大型语言模型 (LLM) 是否拥有真正的推理能力,还是主要依赖于词语偏见。我们超越了对 LLM 准确性的评估;相反,我们旨在调查他们在解决逻辑推理任务中的词语偏见。具体而言,我们开发了精心控制的合成数据集,其中包含合取谬误和三段论问题。我们的框架概述了一系列假设,其中词语偏见很容易识别,所有零假设都假设 LLM 具有真正的推理能力。本研究的结果表明,大多数 LLM 仍然难以进行逻辑推理。虽然它们在经典问题上可能表现良好,但它们的成功很大程度上取决于识别具有强烈词语偏见的表层模式,从而引发了对其实际推理和泛化能力的担忧。代码和数据已在 https://github.com/bowen-upenn/llm_token_bias 上开源。
尽管 CLIPScore 是一个强大的通用度量标准,可以捕捉文本和图像之间的相似性,但它无法区分旨在补充图像信息的标题和旨在完全替代图像的描述(例如,为了可访问性)。我们通过使用参数高效微调和从因果可解释性工作中得出的损失目标,用 Concadia 数据集更新 CLIP 模型来解决此缺陷,从而为描述分配比标题更高的分数。该模型与盲人和低视力人士的判断相关联,同时保留了迁移能力,并且具有可解释的结构,揭示了标题和描述之间的区别。
尽管大型语言模型 (LLM) 在零样本情况下执行复杂任务方面展现出显著的能力,但它们容易受到越狱攻击,并且可以被操纵以产生有害的输出。最近,越来越多的研究将越狱攻击归类为令牌级和提示级攻击。然而,先前的工作主要忽视了越狱攻击的多种关键因素,大多数研究集中在 LLM 的漏洞上,而缺乏对防御增强型 LLM 的探索。为了解决这些问题,我们评估了各种攻击设置对 LLM 性能的影响,并为越狱攻击提供了一个基准,鼓励采用标准化的评估框架。具体而言,我们从目标级和攻击级两个角度评估了在 LLM 上实施越狱攻击的八个关键因素。我们还在两个广泛使用的数据集上对六种防御方法进行了七种有代表性的越狱攻击,涵盖了大约 354 个实验,在 A800-80G 上进行了约 55,000 个 GPU 小时。我们的实验结果突出了对防御增强型 LLM 进行这些攻击的标准化基准测试的必要性。我们的代码可在 https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking 获取。
主动学习是一种迭代式标注过程,用于在没有标注数据的情况下获得一小部分标注子集,从而能够训练模型用于监督任务,例如文本分类。尽管近年来由于预训练语言模型的改进,主动学习取得了重大进展,但未标注数据中经常被忽视的部分仍存在未开发的潜力,尽管其数量远大于通常很小的标注数据集。在这项工作中,我们研究了自训练(一种使用模型为未标注数据获取伪标签的半监督方法)如何用于提高文本分类主动学习的效率。在对四种先前自训练方法进行全面复现的基础上(其中一些方法首次在主动学习或自然语言处理的背景下进行评估),我们引入了 HAST,一种新的有效自训练策略,并在四个文本分类基准上对其进行了评估。我们的结果表明,它优于已复现的自训练方法,并在三个数据集上实现了与先前实验相当的分类结果,而仅使用 25% 的数据。代码可在 https://github.com/chschroeder/self-training-for-sample-efficient-active-learning 公开获取。
检索增强语言模型 (RALM) 近年来在弥合大型语言模型 (LLM) 隐式知识局限性方面展现出巨大潜力,例如最新专业知识的更新不及时以及对长尾知识的可靠保留。然而,由于外部知识库以及检索器无法保证可靠性,可能会导致检索到的知识对 LLM 生成无用甚至具有误导性。在本文中,我们介绍了基于支持度的知识重写 (SKR),这是一种鲁棒且可插拔的知识重写器,其本质上针对 LLM 生成进行了优化。具体而言,我们引入了“支持度”这一新概念,它通过考虑增强知识对白盒 LLM 响应文本的困惑度影响来表示知识片段对下游任务的有效性。基于知识支持度,我们首先设计了重写器模型的训练数据整理策略,有效地识别并过滤掉质量差或不相关的重写(例如,具有低支持度分数的重写),以提高数据效率。然后,我们引入了直接偏好优化 (DPO) 算法,以将生成的重写与最佳支持度对齐,引导重写器模型对增强内容进行总结,从而更好地改进最终响应。在六个流行的知识密集型任务和四个 LLM 上进行的综合评估证明了 SKR 的有效性和优越性。SKR 仅具有 70 亿个参数,就展示了比当前最先进的通用 LLM GPT-4 更好的知识重写能力。