arXiv 论文列表

作者: Weitong Zhang, Chengqi Zang, Bernhard Kainz

大型语言模型（LLM）在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于 LLM 的方法通常会产生看似合理但缺乏一致性和可靠性的输出，尤其是在模棱两可或复杂的情况下。确保输出与事实正确性和人类意图相一致是一个挑战。在现有方法中，为了提高一致性而牺牲准确性，这成为了一个问题。为了缓解这些挑战，我们提出了一种新颖的博弈论方法，用于在 LLM 输出生成解码阶段增强一致性和可靠性。我们的方法将解码过程建模为一个多阶段贝叶斯解码博弈。这通过正确性对齐来确保一致性，并通过歧义校准来增强可靠性。该模型动态地收敛到关于最可靠输出的共识，并区分 {有效，虚假} 输出，无需人工反馈或额外训练。我们的博弈设计允许较小的模型通过博弈机制（例如，78.1 LLaMA13B 对比 76.6 PaLM540B）优于更大的模型，以及整合各种 LL 策略和模型，证明了博弈论工具在提高 LLM 的真实性和可靠性方面的潜力。

发布时间: 10/3/2024

查看原文

RATIONALYST：用于提升推理能力的预训练过程监督方法

作者: Dongwei Jiang, Guoxuan Wang, Yining Lu, Andrew Wang, Jingyu Zhang, Chuyu Liu, Benjamin Van Durme, Daniel Khashabi

大型语言模型 (LLM) 在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/3/2024

查看原文

基于知识的大型语言模型框架，用于美国核电站停堆事件分类的概率风险评估

作者: Min Xian, Tao Wang, Sai Zhang, Fei Xu, Zhegang Ma

识别和分类引发停堆事件 (SDIE) 对于开发核电站的低功率停堆概率风险评估至关重要。现有的计算方法由于缺乏大型标记数据集、事件类型不平衡以及标签噪声等挑战，无法实现令人满意的性能。为了解决这些挑战，我们提出了一种混合管道，将知识驱动的机器学习模式整合到预筛选非 SDIE 中，并使用大型语言模型 (LLM) 将 SDIE 分为四种类型。在预筛选阶段，我们提出了 44 个 SDIE 文本模式，这些模式包含来自六种 SDIE 类型的最显著关键字和短语。基于 SDIE 模式进行文本向量化生成特征向量，这些特征向量可以使用简单的二元分类器进行高度分离。第二阶段构建基于双向编码器表示来自 Transformer (BERT) 的 LLM，它从大型数据集上的自监督预训练中学习通用英语语言表示，并通过在 SDIE 数据集上微调来适应 SDIE 分类。所提出的方法在包含 10,928 个事件的数据集上进行了评估，使用精度、召回率、F1 分数和平均准确率进行评估。结果表明，预筛选阶段可以排除超过 97% 的非 SDIE，LLM 在 SDIE 分类中的平均准确率达到 93.4%。

发布时间: 10/3/2024

查看原文

平均奖励时序差分学习的几乎确定收敛性

作者: Ethan Blaser, Shangtong Zhang

表格平均奖励时序差分 (TD) 学习可能是平均奖励强化学习中最简单和最基础的策略评估算法。在它被发现后的至少 25 年后，我们终于能够提供一个期待已久的几乎确定收敛分析。也就是说，我们是第一个证明，在非常温和的条件下，表格平均奖励 TD 几乎可以确定地收敛到一个样本路径相关的固定点。这一成功的关键在于一个新的关于具有马尔可夫和加性噪声的非扩展映射的一般随机逼近结果，该结果建立在最近随机 Krasnoselskii-Mann 迭代方面的进展之上。

发布时间: 10/2/2024

查看原文

通过类别低方差正则化在下游任务中进行无标签去偏

作者: Shahed Masoudian, Markus Frohmann, Navid Rekabsaz, Markus Schedl

大型语言模型（LLMs）在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于 LLMs 的方法...

发布时间: 10/2/2024

查看原文

基于模型的无人工反馈摘要偏好优化

作者: Jaepill Choi, Kyubyung Chae, Jiwoo Song, Yohan Jo, Taesup Kim

在抽象摘要中，从源文档中包含的大量信息中生成简洁准确的摘要是一项挑战。因此，虽然大型语言模型 (LLM) 可以生成流畅的文本，但它们经常通过幻觉出原始来源中没有的内容而引入不准确之处。虽然最大化似然的监督微调方法会加剧这个问题，但它们并不始终如一地提高摘要的忠实度。基于偏好的优化方法，例如直接偏好优化 (DPO)，可以进一步优化模型以符合人类偏好。然而，这些方法仍然严重依赖于昂贵的用户反馈。在这项工作中，我们介绍了一种新颖且直接的方法，称为基于模型的偏好优化 (MPO)，用于微调 LLM 以提高摘要能力，而无需任何用户反馈。通过利用模型固有的摘要能力，我们创建了一个偏好数据集，该数据集完全由模型使用不同的解码策略生成。我们在标准摘要数据集和各种指标上的实验表明，我们提出的 MPO 显着提高了生成摘要的质量，而无需依赖用户反馈。

发布时间: 10/2/2024

查看原文

骨骼：面向大型语言模型的块仿射变换参数高效微调方法

作者: Jiale Kang

低秩自适应（LoRA）通过冻结原始权重并仅训练低秩矩阵，在训练中取得了显著成果，成为大语言模型（LLM）的主要微调方法。为了追求更接近全参数训练的性能，一系列 LoRA 变体应运而生，例如 LoRA+、PISSA、Olora 和 LoRA-GA。然而，这些改进使模型训练的初始设置变得复杂，并增加了初始化时间。更重要的是，它们忽略了原始权重信息的内部交互。为了解决这些问题，我们提出了一种新的理论，即“权重引导”，旨在通过训练过程中的原始权重持续引导可训练矩阵，以增强权重信息的利用。基于此理论，我们设计了一种名为 Bone（Bl\textbf{o}ck Affi\textbf{ne}）的新型 PEFT 技术，它不仅增强了原始权重信息的利用，而且强调了权重之间的内部连接，从而实现更快的收敛和更好的数据拟合。在两种不同 LLM 架构（LLaMA2、RWKV6）和各种参数规模上的实验比较表明，Bone 结构可以在无需复杂初始化的情况下实现快速收敛和优异的数据拟合。例如，当在 MetaMathQA 数据集上微调 LLaMA2-7B，并在 GSM8k 和数学基准上进行验证时，Bone 分别实现了 49.36 和 8.8 的微调分数，分别比 PISSA 高出 5.84% 和 1.96%。

发布时间: 10/2/2024

查看原文

控制复杂物理系统的生成式方法

作者: Long Wei, Peiyan Hu, Ruiqi Feng, Haodong Feng, Yixuan Du, Tao Zhang, Rui Wang, Yue Wang, Zhi-Ming Ma, Tailin Wu

控制复杂物理系统的演化是科学和工程学中的一个基本任务。传统的技术应用范围有限，或者计算成本很高。另一方面，最近基于深度学习和强化学习的方法通常难以在系统动力学的约束下优化长期控制序列。在这项工作中，我们介绍了扩散物理系统控制 (DiffPhyCon)，这是一类解决物理系统控制问题的新方法。DiffPhyCon 能够同时最小化整个轨迹和控制序列中学习到的生成能量函数和预定义的控制目标。因此，它可以全局探索并规划近似最优的控制序列。此外，我们通过先验重加权增强了 DiffPhyCon，使之能够发现与训练分布显著偏离的控制序列。我们在三个任务上测试了我们的方法：1D Burgers 方程、2D 水母运动控制和 2D 高维烟雾控制，我们生成的水母数据集作为复杂物理系统控制研究的基准发布。我们的方法优于广泛应用的经典方法以及最先进的深度学习和强化学习方法。值得注意的是，DiffPhyCon 揭示了水母中观察到的一个有趣的快速闭合-慢速打开模式，这与流体力学领域的既有发现一致。项目网站、水母数据集和代码可以在 https://github.com/AI4Science-WestlakeU/diffphycon 找到。

发布时间: 10/2/2024

查看原文

离群梯度分析：高效识别深度学习模型的有害训练样本

作者: Anshuman Chhabra, Bo Li, Jian Chen, Prasant Mohapatra, Hongfu Liu

数据中心学习的核心挑战之一在于识别对模型性能有害的训练样本。影响函数是解决这一问题的常用工具，为评估训练数据对模型预测的影响提供了稳健的框架。尽管影响函数被广泛应用，但其计算成本高昂，需要计算海森矩阵的逆，这在分析大型深度模型时尤其具有挑战性。本文建立了通过影响函数识别有害训练样本与异常梯度检测之间的桥梁。这种转换不仅提供了一种简单且无需海森矩阵的公式，而且还揭示了梯度在样本影响中的作用。通过系统的实证评估，我们首先在合成数据集上验证了我们提出的异常梯度分析方法的假设。然后，我们证明了该方法在视觉模型中检测错误标记样本和选择数据样本以提高自然语言处理 Transformer 模型性能方面的有效性。我们还将其扩展到用于微调大型语言模型的影响样本识别。

发布时间: 10/2/2024

查看原文

挖掘你的秘密：用于文本到图像扩散模型持续个性化的扩散分类器得分

作者: Saurav Jha, Shiqi Yang, Masato Ishii, Mengjie Zhao, Christian Simon, Muhammad Jehanzeb Mirza, Dong Gong, Lina Yao, Shusuke Takahashi, Yuki Mitsufuji

个性化的文本到图像扩散模型因其能够有效地从用户定义的文本描述和少量图像中获取新概念而广受欢迎。然而，在现实世界中，用户可能希望一次在一个概念上个性化模型，但无法访问先前概念的数据，因为存在存储/隐私问题。在面对这种持续学习 (CL) 设置时，大多数个性化方法无法在获取新概念和保留先前概念之间取得平衡——这是持续个性化 (CP) 旨在解决的挑战。受依赖于特定类别信息进行正则化的成功 CL 方法的启发，我们采用固有的类别条件密度估计（也称为扩散分类器 (DC) 分数）来持续个性化文本到图像扩散模型。具体来说，我们建议使用 DC 分数来正则化文本到图像扩散模型的参数空间和函数空间，从而实现持续个性化。通过使用多个不同的评估设置、数据集和指标，我们表明我们提出的基于正则化的 CP 方法优于最先进的 C-LoRA 和其他基线。最后，通过在无回放 CL 设置和低秩适配器上运行，我们的方法分别在存储和参数方面与最先进方法相比没有额外开销。

发布时间: 10/2/2024

查看原文