大型语言模型已展现出作为下一代信息访问引擎的巨大潜力。然而,它们的可靠性受到幻觉和生成非事实内容问题的阻碍。这在长篇回复中尤为突出,因为评估和确保事实准确性很复杂。本文通过提出 FactAlign,一个旨在增强大型语言模型长篇回复的事实性并保持其有用性的新型对齐框架,来解决这一差距。我们引入了 fKTO,一种细粒度的句子级对齐算法,它扩展了 Kahneman-Tversky 优化 (KTO) 对齐方法。利用自动事实性评估的最新进展,FactAlign 利用细粒度的事实性评估来指导对齐过程。我们在开放域提示和信息搜索问题上的实验表明,FactAlign 显着提高了大型语言模型回复的事实准确性,同时还提高了其有用性。进一步分析表明,FactAlign 能够训练大型语言模型提供更多信息而不会损失事实精度,从而提高事实 F1 分数。我们的源代码、数据集和训练模型在 https://github.com/MiuLab/FactAlign 上公开提供。
我们提出了首个在 Kolmogorov-Arnold 网络领域进行不确定性量化的方法,特别关注 (高阶) ReLUKAN,以在贝叶斯方法的计算需求下提高计算效率。我们提出的方法本质上是通用的,可以获取认知不确定性和偶然不确定性。它还能够推广到其他各种基函数。我们通过一系列闭合测试验证了我们的方法,包括简单的一维函数和对 (随机) 偏微分方程领域的应用。关于后者,我们证明了该方法能够正确识别通过包含随机项引入的函数依赖关系。支持这项工作的代码可以在 https://github.com/wmdataphys/Bayesian-HR-KAN 找到。
神经网络解决算法任务的能力,例如算术、汇总统计和排序,引起了越来越多的关注。虽然像 Transformer 这样的最先进模型在分布内任务上表现出良好的泛化性能,但它们在端到端训练时,其分布外(OOD)性能很差。本文重点关注值泛化,这是 OOD 泛化的一种常见情况,其中测试分布与训练分布具有相同的输入序列长度,但训练和测试分布中的值范围不一定重叠。为了解决这个问题,我们提出使用固定位置编码来确定注意力权重——称为位置注意力——可以增强经验 OOD 性能,同时保持表达能力。我们通过证明具有位置注意力的 Transformer 可以有效地模拟并行算法来支持我们关于表达能力的论点。
各种视觉基础模型各有优劣,这些优劣都可以通过无标签的异构多教师知识蒸馏得到改善,这种方法被称为“聚合模型”。我们基于此研究了教师激活统计量的影响,特别是损失函数对最终学生模型质量的影响。我们探索了一套标准的统计归一化技术,以更好地对齐不同的分布并评估它们的影响。此外,我们还考察了对下游教师匹配指标的影响,这促使我们使用 Hadamard 矩阵。通过这些矩阵,我们证明了其有用的特性,展示了如何将其用于各向同性标准化,其中多元分布的每个维度都使用相同的尺度进行标准化。我们称这种技术为“PHI 标准化”(PHI-S),并通过实验证明,它在所有研究方法中产生了最佳的学生模型。
在当今世界中,区分生成内容和人工撰写的内容对于导航至关重要。大型语言模型 (LLM) 是计算机生成内容质量提升的关键驱动力。据报道,人类越来越难以识别一段文字是否由人工智能模型生成。我们的工作测试了两个重要因素如何影响人机对抗:同理心和表现得像人类的动机。我们在两个实验中探讨了这两个方面:人类参与者和最先进的 LLM 编写了关系建议(研究 1,n=530)或单纯的描述(研究 2,n=610),指示他们尽可能地像人类一样,或者不这样指示。然后,新的样本人类 (n=428 和 n=408) 对文本的来源进行了判断。我们的研究结果表明,当需要同理心时,人类表现出色。与预期相反,表现得像人类的指示只对 LLM 有效,因此人类的优势减弱了。计算文本分析表明,LLM 变得更加人性化,因为它们可能对什么是人性化的文本有一个隐含的表示,并且毫不费力地应用这些启发式方法。该模型采用对话式、自我指称的、非正式的语气,并使用更简单的词汇来模仿随机同理心。我们根据最近关于 LLM 表现相当的论点讨论了这些发现。
大型语言模型 (LLMs) 在自然语言处理方面展现出非凡的能力;然而,当它们被要求理解长篇语境并执行有效的问答时,仍然面临困难。这些挑战通常是由于较长文本中存在的复杂性和歧义造成的。为了增强 LLMs 在此类场景下的性能,我们引入了长问句共指适应 (LQCA) 方法。这个创新框架侧重于针对长篇语境量身定制的共指消解,使模型能够有效地识别和管理引用。LQCA 方法包含四个关键步骤:在子文档中解决共指、计算提及之间的距离、为共指定义代表性提及以及通过提及替换来回答问题。通过系统地处理信息,该框架为 LLMs 提供了更容易处理的分割,促进了更好的理解。在各种 LLMs 和数据集上的实验评估产生了积极的结果,在 OpenAI-o1-mini 和 GPT-4o 模型上取得了显著的改进,突出了利用共指消解来弥合问答中语境差距的有效性。
心磁共振成像(CMR)被认为是非侵入性心脏评估的金标准,是一种多样且复杂的模式,需要各种图像处理任务来全面评估心脏形态和功能。深度学习的进步使得能够开发出用于这些任务的最先进(SoTA)模型。然而,由于数据和标签稀缺,特别是较不常见的成像序列,模型训练具有挑战性。此外,每个模型通常针对特定任务进行训练,相关任务之间没有联系。在这项工作中,我们介绍了一个针对 CMR 评估训练的视觉基础模型,该模型以自监督的方式在 3600 万张 CMR 图像上进行训练。然后,我们以监督方式对模型进行了微调,以针对 CMR 工作流程中典型的 9 项临床任务,涵盖分类、分割、地标定位和病理检测。我们证明了在各种可用标记数据集大小上,所有任务的准确性和鲁棒性均有所提高。我们还展示了在标记样本更少的情况下,少样本学习有所改进,这是医学图像分析中的一个常见挑战。对于大多数临床任务,我们实现了与 SoTA 相当的开箱即用性能。因此,所提出的方法为 CMR 评估提供了一个资源高效的统一框架,有可能加速基于深度学习的图像分析任务解决方案的开发,即使只有少量带注释的数据可用。
生成模型缺乏对其输出的严格统计保证,因此在安全关键型应用中不可靠。本研究提出了针对生成模型的序列一致预测方法(SCOPE-Gen),这是一种序列一致预测方法,它可以生成满足称为一致性容许控制的严格统计保证的预测集。该保证指出,预测集以高概率包含至少一个容许(或有效)示例。为此,我们的方法首先从黑盒生成模型中采样一组初始的独立同分布示例。然后,通过所谓的贪婪过滤器迭代地修剪这组示例。由于迭代生成过程的结果,最终预测集的容许性分解为马尔可夫链。这种分解至关重要,因为它允许使用一致性预测分别控制每个因子。与先前的工作相比,我们的方法在校准过程中显着减少了容许性评估的数量。这种减少在安全关键型应用中很重要,因为这些评估必须由领域专家手动进行,因此成本高昂且耗时。我们通过自然语言生成和分子图扩展任务中的实验,突出了我们的方法在容许性评估和预测集基数方面的优势。
近年来,基于检索的语言模型(RLMs)备受关注。然而,大多数模型都利用参数固定的预训练检索器,这可能无法很好地适应因果语言模型。在这项工作中,我们提出了分组交叉注意力机制,这是一个新的模块,能够实现检索器和因果语言模型的联合预训练,并将其应用于长上下文建模。对于给定的输入序列,我们将它分成多个片段,并使用当前片段来检索过去的片段以进行后续文本生成。我们的创新之处在于,检索器可以学习如何检索过去的片段,以端到端的方式更好地最小化后续令牌的自回归损失。通过整合前 $k$ 个检索结果,我们的模型可以从零开始进行高效的预训练,上下文长度可达 64K 个令牌。我们的实验表明,与长距离语言模型基线相比,我们的模型在保持可比或更低的预训练和推理成本的情况下,可以实现更低的困惑度。
最初源于博弈论,Shapley 值 (SV) 近年来已成为机器学习研究中重要的工具。最显著的是,它被用于可解释人工智能中的特征归因和数据估值。Shapley 互动 (SIs) 自然地扩展了 SV 并解决了其局限性,通过为实体组分配联合贡献来增强对黑盒机器学习模型的理解。由于计算 SV 和 SIs 的指数级复杂性,人们提出了各种方法,这些方法利用结构性假设或在有限资源的情况下提供概率估计。在这项工作中,我们介绍了 shapiq,一个开源 Python 包,它将最先进的算法统一起来,以在与应用程序无关的框架中高效地计算 SV 和任意阶 SIs。此外,它还包含一个基准套件,其中包含 11 个 SIs 的机器学习应用程序,以及预先计算的游戏和真实值,以系统地评估跨领域的计算性能。对于从业人员来说,shapiq 能够解释和可视化模型预测中的任意阶特征交互,包括视觉转换器、语言模型,以及带有 TreeSHAP-IQ 的 XGBoost 和 LightGBM。借助 shapiq,我们将 shap 扩展到特征归因之外,并巩固了 SV 和 SIs 在机器学习中的应用,这将促进未来的研究。源代码和文档可在 https://github.com/mmschlk/shapiq 获取。