大型语言模型 (LLM) 需要知识更新来满足不断增长的世界事实并纠正幻觉响应,促进终身模型编辑方法的发展。更新后的知识存储在内存中的位置是模型编辑的基本问题。在本文中,我们发现编辑长期记忆(直接模型参数)或工作记忆(通过检索的神经网络激活/表示的非参数知识)会导致不可能三角——可靠性、泛化性和局部性无法在终身编辑设置中同时实现。对于长期记忆,直接编辑参数会导致与无关的预训练知识或之前的编辑冲突(可靠性和局部性差)。对于工作记忆,基于检索的激活很难让模型理解编辑并进行泛化(泛化性差)。因此,我们提出了 WISE 来弥合记忆之间的差距。在 WISE 中,我们设计了一种双参数记忆方案,包括用于预训练知识的主记忆和用于编辑知识的侧记忆。我们只编辑侧记忆中的知识,并训练一个路由器来决定在给定查询时通过哪个记忆。对于持续编辑,我们设计了一种知识分片机制,其中不同的编辑集驻留在参数的不同子空间中,并随后合并到一个共享记忆中,而不会发生冲突。大量实验表明,WISE 可以在问答、幻觉和分布外设置的终身模型编辑下,超越之前的模型编辑方法,克服不可能三角,涵盖 GPT、LLaMA 和 Mistral 等流行的 LLM 架构。代码可在 https://github.com/zjunlp/EasyEdit 获得。
磁共振成像 (MRI) 是一种广泛使用的非侵入性成像方式。然而,平衡图像质量和成像速度始终是一个挑战。这种权衡主要受限于 k 空间测量,这些测量在空间傅里叶域 (k 空间) 中遍历特定的轨迹。为了缩短采集时间,这些测量通常被欠采样,导致图像伪影和质量下降。生成模型学习图像分布,可用于从欠采样的 k 空间数据中重建高质量图像。在这项工作中,我们提出了用于图像序列的自回归图像扩散 (AID) 模型,并利用它对加速 MRI 重建的后验进行采样。该算法结合了欠采样的 k 空间和预先存在的的信息。在 fastMRI 数据集上训练的模型得到了全面评估。结果表明,AID 模型可以稳健地生成序列一致的图像序列。在 MRI 应用中,由于学习到的图像间依赖关系,AID 可以优于标准扩散模型并减少幻觉。项目代码可在 https://github.com/mrirecon/aid 获取。
机器学习 (ML) 模型在各种应用中越来越普遍,从电子商务中的推荐系统到医疗保健中的诊断预测。本文提出了一种新颖的动态框架,用于思考在执行性的人机协作系统中部署 ML 模型。在我们的框架中,ML 建议的引入改变了人类决策的数据生成过程,而人类决策只是对真实情况的代理,然后用于训练模型的未来版本。我们表明,原则上,这个动态过程可以收敛到不同的稳定点,即 ML 模型和人机协作系统具有相同的性能。其中一些稳定点相对于实际真实情况来说是次优的。作为概念验证,我们对 1,408 名参与者进行了实证用户研究。在研究中,人类在机器学习预测(性能各不相同)的帮助下解决了背包问题实例。这是一个理想的环境,因为我们可以识别出实际的真实情况,并评估由 ML 建议支持的人类决策的性能。我们发现,对于许多级别的 ML 性能,人类可以改进 ML 预测。我们还发现,如果人类理性地遵循 ML 建议,改进可能更高。最后,我们测试了金钱激励是否可以提高人类决策的质量,但我们没有发现任何积极影响。使用我们的经验数据来近似我们的协作系统表明,学习过程将动态地达到一个平衡性能,大约为最大背包值的 92%。我们的结果对在人类决策可能偏离不可辩驳的真实情况的背景下部署 ML 模型具有实际意义。
目前大多数语言模型在对话中容易出现自相矛盾。为了解决这个问题,本研究探索了一种新颖的矛盾对话处理任务,旨在检测和修改对话中的矛盾陈述。该任务的灵感来自上下文忠实度和对话理解方面的研究,这些研究表明,矛盾的检测和理解通常需要详细的解释。我们开发了一个包含矛盾对话的数据集,其中一方的对话自相矛盾。每个对话都附带一个解释标签,突出显示矛盾的位置和细节。利用该数据集,我们提出了一个用于矛盾对话处理的“红队”框架。该框架检测并尝试解释对话,然后利用解释修改现有的矛盾内容。我们的实验表明,该框架提高了检测矛盾对话的能力,并提供了有效的解释。此外,它还展示了修改此类对话的独特能力。我们的研究突出了对话式人工智能中逻辑不一致问题的严重性。
大型语言模型在少量样本上下文学习(ICL)方面表现出色。多模态基础模型的最新进展使得上下文窗口长度前所未有地增加,为探索其在更多演示示例下进行 ICL 的能力提供了机会。在这项工作中,我们评估了从少量样本到多样本 ICL 的多模态基础模型的性能。我们在 14 个涵盖多个领域(自然图像、医疗图像、遥感和分子图像)和任务(图像分类、视觉问答和目标定位)的数据集上对 GPT-4o 和 Gemini 1.5 Pro 进行了基准测试。我们观察到,多样本 ICL(包括高达近 2000 个演示示例)与少量样本(<100 个示例)ICL 相比,在所有数据集上都带来了显著的改进。此外,Gemini 1.5 Pro 的性能在许多数据集上一直呈对数线性增长,直到测试示例的最大数量。我们还发现像 Llama 3.2-Vision 这样的开放权重多模态基础模型无法从演示示例中获益,这突出了开放和封闭多模态基础模型之间重要的差距。鉴于多样本 ICL 需要高昂的推理成本,我们还探讨了在单个 API 调用中批处理多个查询的影响。我们表明,在零样本和多样本 ICL 下,批处理多达 50 个查询可以提高性能,在多个数据集的零样本设置下取得了显著的收益,同时大幅降低了每个查询的成本和延迟。最后,虽然 GPT-4o 和 Gemini 1.5 Pro 在各个数据集上实现了相似的零样本性能,但在大多数数据集上,Gemini 1.5 Pro 的学习速度比 GPT-4o 更快。我们的结果表明,多样本 ICL 可以使用户高效地将多模态基础模型适应新的应用和领域。我们的代码库在 https://github.com/stanfordmlgroup/ManyICL 上公开提供。
人工智能模型日益复杂,给可解释性带来了挑战,尤其是在医疗保健领域。本研究利用四种 ResNet 架构(ResNet-18、34、50、101)探讨了深度学习模型复杂度和可解释人工智能 (XAI) 效力的影响。通过对 4,369 张 COVID-19 感染和健康患者的肺部 X 光图像进行系统性实验,研究评估了模型的分类性能以及相应 XAI 解释相对于真实疾病掩模的相关性。结果表明,模型复杂度的增加与分类准确率和 AUC-ROC 得分的下降有关(ResNet-18:98.4%、0.997;ResNet-101:95.9%、0.988)。值得注意的是,在执行的十二项统计检验中,有十一项表明,经过训练的模型之间的 XAI 定量指标(相关性排名准确率和提出的正属性比率)没有显著差异。这些结果表明,增加模型复杂度并不总是会导致更高性能或对模型决策过程的解释相关性更高。
对相机姿态的精确依赖是神经辐射场 (NeRF) 模型在 3D 重建和 SLAM 任务中广泛应用的重大障碍。现有的方法引入了单目深度先验来联合优化相机姿态和 NeRF,但这未能充分利用深度先验,也忽略了其固有噪声的影响。在本文中,我们提出了截断深度 NeRF (TD-NeRF),这是一种新方法,它能够从未知相机姿态训练 NeRF - 通过联合优化辐射场的可学习参数和相机姿态。我们的方法通过三个关键改进显式地利用了单目深度先验:1)我们提出了一种基于截断正态分布的新型深度引导射线采样策略,这提高了姿态估计的收敛速度和精度;2)为了规避局部最小值并细化深度几何,我们引入了一种从粗到细的训练策略,逐步提高深度精度;3)我们提出了一种更稳健的帧间点约束,在训练期间增强了对深度噪声的鲁棒性。在三个数据集上的实验结果表明,TD-NeRF 在相机姿态和 NeRF 的联合优化方面取得了优异的性能,超越了以前的工作,并生成了更准确的深度几何。我们方法的实现已在 https://github.com/nubot-nudt/TD-NeRF 发布。
人类认知表现出系统的组合性,即从有限的学习成分中生成无限的新组合的代数能力,这是理解和推理复杂逻辑的关键。在这项工作中,我们研究了大型语言模型 (LLM) 在数学推理中的组合性。具体来说,我们通过在 MATH 和 GSM8k 的问题描述中引入精心设计的逻辑陷阱,构建了一个新的数据集 \textsc{MathTrap}\footnotemark[3]。由于现实世界中存在逻辑缺陷的问题非常罕见,因此这些问题代表了 LLM 的“未见”情况。解决这些问题需要模型系统地组合 (1) 原始问题中涉及的数学知识与 (2) 与引入的陷阱相关的知识。我们的实验表明,虽然 LLM 同时具备必要知识的两个组成部分,但它们不会 \textbf{自发地} 将它们组合起来处理这些新情况。我们探索了多种方法来缓解这种缺陷,例如自然语言提示、少样本演示和微调。我们发现,LLM 的性能可以通过上述外部干预 \textbf{被动地} 提高。总的来说,系统的组合性仍然是大型语言模型面临的一个开放性挑战。
基于人类反馈的标准强化学习 (RLHF) 方法依赖于像 Bradley-Terry 模型这样的参数模型,在捕捉人类偏好中的非传递性和非理性方面存在不足。最近的进展表明,直接处理偏好概率可以更准确地反映人类偏好,从而实现更灵活和准确的语言模型对齐。本文提出了一种基于自博弈的语言模型对齐方法,该方法将问题视为一个常和博弈,旨在识别纳什均衡策略。我们的方法称为自博弈偏好优化 (SPPO),利用迭代策略更新来证明性地逼近纳什均衡。此外,我们提出了一种新的 SPPO 目标,该目标既有理论上的强有力动机,又在实践中简单有效。在我们的实验中,仅使用 UltraFeedback 数据集中的 60k 个提示(没有响应),并且没有进行任何提示增强,通过利用一个仅有 0.4B 个参数的预训练偏好模型 PairRM,SPPO 可以从微调 Mistral-7B-Instruct-v0.2 获得一个模型,该模型在 AlpacaEval 2.0 上实现了 28.53% 的最先进的长度控制胜率,超过了 GPT-4-Turbo。它还在 MT-Bench、Arena-Hard 和 Open LLM Leaderboard 上优于 (迭代) DPO 和 IPO。从更强大的基础模型 Llama-3-8B-Instruct 开始,我们能够实现 38.77% 的长度控制胜率。值得注意的是,SPPO 的出色性能是在没有来自 GPT-4 或其他更强大的语言模型的额外外部监督(例如,响应、偏好等)的情况下实现的。代码可在 https://github.com/uclaml/SPPO 获取。
为了解决大型语言模型(LLMs)中知识不足和幻觉问题,许多研究探索了将 LLMs 与知识图谱 (KGs) 集成。然而,这些方法通常在传统的知识图谱问答 (KGQA) 上进行评估,这些问答使用完整的 KGs,其中每个问题所需的所有事实三元组都被给定的 KG 完全覆盖。在这种情况下,LLMs 主要充当在 KG 中查找答案实体的代理,而不是有效地整合 LLMs 的内部知识和外部知识源,例如 KGs。事实上,KGs 通常不完整,无法涵盖回答问题所需的所有知识。为了模拟这些现实场景并评估 LLMs 整合内部和外部知识的能力,我们建议利用 LLMs 在不完整知识图谱 (IKGQA) 下进行问答,其中提供的 KG 缺少每个问题的一些事实三元组,并构建相应的数据集。为了处理 IKGQA,我们提出了一种无训练方法,称为“图上生成”(GoG),它可以在探索 KGs 时生成新的事实三元组。具体来说,GoG 通过“思考-搜索-生成”框架进行推理,将 LLM 视为 IKGQA 中的代理和 KG。在两个数据集上的实验结果表明,我们的 GoG 优于所有先前的方法。