条件神经场 (CNFs) 越来越被用作连续信号表示,通过将每个数据样本与一个潜在变量相关联,该变量对共享主干神经场 (NeF) 进行条件化以重建样本。然而,现有的 CNF 架构在使用该潜在变量进行需要细粒度几何推理的任务(如分类和分割)时,面临局限性。我们认为,这是由于 CNF 潜在空间中缺乏对几何信息(例如信号中的局部性或特征的方向)的显式建模。因此,我们提出了等变神经场 (ENFs),这是一种新颖的 CNF 架构,它使用几何信息交叉注意力将 NeF 条件化为几何变量,即特征的潜在点云,从而实现从潜在到场的等变解码。我们表明,这种方法诱导了一种可控性,即场和潜在变量都以几何为基础,并且服从变换定律:如果场发生变换,潜在表示也会相应地变换 - 反之亦然。至关重要的是,这种等变关系确保潜在变量能够 (1) 忠实地表示几何模式,从而允许在潜在空间中进行几何推理,(2) 在类似的局部模式上进行权重共享,从而允许对场数据集进行高效学习。我们在包括分类、分割、预测和重建在内的各种任务中验证了这些主要属性,表明与具有无几何潜在空间的基线相比,有明显的改进。
大型语言模型(LLMs)的出现揭示了对人机协作日益增长的需求,特别是在创造性决策场景中,信任和依赖至关重要。通过对 LaMP 基准中开放式新闻标题生成任务的人类研究和模型评估,我们分析了解释的框架和存在方式如何影响用户信任和模型性能。总的来说,我们提供了证据表明,在用户有机会比较不同响应的情况下,在模型响应中添加解释以证明其推理的合理性,可以显著提高用户对模型的自评信任度。这些解释的位置和忠实度也是重要的因素。然而,当用户独立查看响应时,这些收益消失了,这表明当用户单独查看时,人类对所有模型响应(包括欺骗性响应)的信任程度是相同的。我们的发现促使未来的研究更深入地探讨人机协作系统中信任的细致评估。
预测药物-靶标相互作用 (DTI) 在药物发现过程中至关重要。尽管最近通过整合来自不同药物和靶标编码器的表征,DTI 模型取得了显著进展,但此类模型通常难以捕捉药物和蛋白质之间的细粒度相互作用,即特定药物原子(或亚结构)与蛋白质关键氨基酸的结合,而这对于理解结合机制和优化药物设计至关重要。为了解决这个问题,本文提出了一种名为 FusionDTI 的新型模型,该模型使用令牌级融合模块来有效地学习药物-靶标相互作用的细粒度信息。具体而言,我们的 FusionDTI 模型使用药物的 SELFIES 表征来缓解序列片段失效问题,并结合靶蛋白的结构感知 (SA) 词汇来解决氨基酸序列在结构信息方面的局限性,此外还利用在大型生物医学数据集上广泛训练的预训练语言模型作为编码器来捕捉药物和靶标的复杂信息。在三个著名的基准数据集上的实验表明,与七个现有的最先进的基线相比,我们提出的 FusionDTI 模型在 DTI 预测方面取得了最佳性能。此外,我们的案例研究表明 FusionDTI 可以突出潜在的结合位点,从而增强 DTI 预测的可解释性。
大型语言模型(LLMs)经常生成不准确或虚假的信息,并且通常无法表明其置信度,这限制了其更广泛的应用。之前的工作通过直接或自一致性提示或构建特定数据集进行监督微调来从 LLMs 中 elicits 信任度。基于提示的方法性能较差,而基于训练的方法仅限于二进制或不准确的组级置信度估计。在这项工作中,我们提出了先进的 SaySelf,这是一个训练框架,它教会 LLMs 表达更准确的细粒度置信度估计。此外,除了置信度得分外,SaySelf 还启动了引导 LLMs 生成自我反思的理由的过程,这些理由清楚地识别了其参数知识中的差距并解释了其不确定性。这是通过使用 LLM 自动总结特定知识中的不确定性来实现的,通过自然语言。总结基于对多个采样推理链中不一致性的分析,并将生成的数据用于监督微调。此外,我们利用强化学习以及精心设计的奖励函数来校准置信度估计,激励 LLMs 提供准确、高置信度的预测,并惩罚错误输出中的过度自信。在分布内和分布外数据集上的实验结果证明了 SaySelf 在减少置信度校准误差和维持任务性能方面的有效性。我们表明,生成的自我反思理由是合理的,并且可以进一步有助于校准。代码已在 https://github.com/xu1868/SaySelf 公开。
本文介绍了 LInK,一个将性能和设计空间对比学习与优化技术相结合的新框架,用于解决工程设计中具有离散和连续变量的复杂逆问题。我们重点关注平面连杆机构的路径合成问题。通过利用多模态和变换不变的对比学习框架,LInK 学习了一个联合表示,该表示捕获了机构的复杂物理和设计表示,从而能够从超过 1000 万个机构的庞大数据集中快速检索。这种方法通过分层无约束非线性优化算法的热启动来提高精度,将传统优化的稳健性与现代深度学习方法的速度和适应性相结合。我们在现有基准上的结果表明,与现有方法相比,LInK 的误差减少了 28 倍,而在一个现有基准上花费的时间减少了 20 倍。此外,我们引入了一个更具挑战性的基准,名为 LINK ABC,它涉及合成跟踪英文大写字母轨迹的连杆,这是一个逆设计基准任务,由于存在大量非线性和小可行空间,现有方法难以解决。我们的结果表明,LInK 不仅推动了机构设计的进步,而且将对比学习和优化的适用范围扩展到工程的其他领域。代码和数据可在 https://github.com/ahnobari/LInK 公开获取。
在上下文学习 (ICL) 中,大型语言模型 (LLM) 可以从示例中学习而无需改变其权重:这对于能够从大量示例中学习的长上下文 LLM 来说是一个特别有前景的能力。最近,Lin 等人 (2024) 提出了 URIAL,一种仅使用三个上下文示例来对齐基础 LLM 的方法,从而实现了非平凡的指令遵循性能。在这项工作中,我们表明,虽然有效,但与在已建立的基准 MT-Bench 上进行指令微调相比,使用 URIAL 进行 ICL 对齐仍然表现不佳,尤其是在使用更强大的基础 LLM 时。然后,我们揭示了上下文对齐成功的最相关因素,发现解码参数的关键作用。基于这些见解,我们表明,通过在上下文中添加高质量的、可能通过贪婪搜索精心选择的演示,URIAL 的方法确实可以得到改进,从而接近指令模型的性能。最后,我们提供了第一个关于 ICL 和指令微调 (IFT) 在低数据状态下用于指令遵循的系统比较,在低数据状态下,ICL 可以成为 IFT 的可行替代方案。总的来说,我们的工作促进了对 ICL 作为一种对齐技术的理解及其与 IFT 的关系。我们在 https://github.com/tml-epfl/icl-alignment 上提供了我们的代码。
检索增强生成 (RAG) 已成为缓解大型语言模型 (LLM) 幻觉并利用外部知识的有效解决方案。自适应 RAG 通过在生成过程中启用动态检索来增强这种方法,仅当查询超出 LLM 的内部知识时才激活检索。现有方法主要集中于通过统计不确定性检测 LLM 的置信度。相反,我们提出了从表示角度解决自适应 RAG 的首次尝试,并开发了一个基于内在控制的框架,称为 \name。具体来说,我们提取了代表 LLM 诚实度和置信度方向的特征,并利用它们来控制 LLM 行为并指导检索时间决策。我们还设计了一种简单而有效的查询制定策略来支持自适应检索。实验表明,\name 在各种任务上优于现有的自适应 RAG 方法,诚实度引导可以有效地使 LLM 更诚实,而置信度监控是检索触发器的有效指标。我们的代码可在 \url{https://github.com/HSLiu-Initial/CtrlA} 获取。
概念瓶颈模型 (CBMs) 因其通过人类可理解的概念层阐明预测过程的能力而备受关注。然而,大多数先前的研究集中在数据(包括概念)干净的情况下。在许多情况下,由于各种原因,例如隐私问题、数据错误标记、虚假概念和概念标注错误,我们总是需要从训练好的 CBMs 中移除/插入一些训练数据或新概念。因此,在不从头开始重新训练的情况下推导出可编辑的 CBMs 的挑战仍然存在,特别是在大规模应用中。为了解决这些挑战,我们提出了可编辑的概念瓶颈模型 (ECBMs)。具体来说,ECBMs 支持三种不同的数据移除级别:概念-标签级别、概念级别和数据级别。ECBMs 拥有从影响函数推导出的数学上严格的闭式近似,从而避免了重新训练的需要。实验结果证明了我们 ECBMs 的效率和有效性,证实了它们在 CBMs 领域内的适应性。
在使用经验回放的强化学习 (RL) 中,存储在回放缓冲区中的经验会影响 RL 智能体的性能。关于这些经验如何影响智能体性能的信息对于各种目的非常有价值,例如识别对表现不佳的智能体产生负面影响的经验。估计经验影响的一种方法是留一法 (LOO)。然而,这种方法通常在计算上是不可行的。在本文中,我们提出了策略迭代与轮换丢弃 (PIToD),它可以有效地估计经验的影响。我们评估了 PIToD 估计经验影响的准确性和与 LOO 相比的效率。然后,我们应用 PIToD 来修正表现不佳的 RL 智能体,即我们使用 PIToD 来估计 RL 智能体的负面影响经验,并删除这些经验的影响。我们证明,通过使用 PIToD 进行修正,RL 智能体的性能得到了显著提高。
大型语言模型 (LLM) 在各种应用中取得了令人瞩目的成果。然而,将长尾知识整合到 LLM 中的挑战仍然阻碍着 LLM 在专业领域的无缝应用。本文介绍了 DALK,即 LLM 和 KG 的动态协同增强,以解决这一局限性,并展示其在阿尔茨海默病 (AD) 研究中的能力,该研究是生物医学的一个专业子领域,也是全球健康优先事项。通过 LLM 和 KG 相互增强的协同框架,我们首先利用 LLM 从 AD 相关科学文献中构建一个不断发展的 AD 特定知识图谱 (KG),然后利用一种粗到细的采样方法,结合一种新颖的自我感知知识检索方法,从 KG 中选择合适的知识来增强 LLM 的推理能力。在构建的 AD 问答 (ADQA) 基准上进行的实验结果突出了 DALK 的有效性。此外,我们进行了一系列详细的分析,可以为 KG 和 LLM 相互增强的这一新兴主题提供宝贵的见解和指导。我们将发布代码和数据,地址为 https://github.com/David-Li0406/DALK。