LLM2D

arXiv 论文列表

概率电路(PCs)已成为一种强大的框架,可以紧凑地表示概率分布,从而实现高效且精确的概率推理。研究表明,具有通用有向无环图(DAG)结构的 PCs 可以理解为指数级(以其高度为底)多个分量的混合,每个分量都是对单变量边缘分布的乘积分布。然而,现有的 PC 结构学习算法通常会生成树状结构的电路,或使用树状结构的电路作为中间步骤将其压缩成 DAG 结构的电路。这引出了一个有趣的问题,即 PC 结构的 DAG 与树之间是否存在指数级的差距。在本文中,我们通过证明对于 $n$ 个变量,存在一个次指数级上限 $n^{O(\log n)}$ 来否定这一猜想,该上限是等效树的大小,该树计算相同的概率分布。另一方面,我们还表明,在对树的深度进行限制的情况下,树状结构的 PC 与 DAG 结构的 PC 之间存在超多项式分离。我们的工作朝着理解树状结构的 PC 的表达能力迈出了重要的一步,并且我们的技术在研究 PC 的结构学习算法中可能具有独立的意义。
发布时间: 10/10/2024
查看原文
大型语言模型 (LLMs) 、系统评估和进化算法的结合,在组合优化和科学发现方面取得了突破。我们提出将这种强大的组合扩展到动态系统的控制,生成能够实现复杂行为的可解释控制策略。通过我们的新方法,我们将控制策略表示为标准语言(如 Python)中的程序。我们在模拟中评估候选控制器,并使用预训练的 LLM 对其进行进化。与传统的基于学习的控制技术不同,后者依赖于黑盒神经网络来编码控制策略,我们的方法增强了透明度和可解释性。我们仍然利用大型 AI 模型的力量,但在策略设计阶段利用它,确保所有系统组件在运行时保持可解释和易于验证。此外,使用标准编程语言使人类可以根据自己的专业知识和直觉轻松地微调或调整控制器。我们通过将该方法应用于摆杆摆动和球在杯子任务的可解释控制策略的合成来说明我们的方法。我们在 https://github.com/muellerlab/synthesizing_interpretable_control_policies.git 上提供了代码。
发布时间: 10/10/2024
查看原文
作者: Ken Satoh, Ha-Thanh Nguyen, Francesca Toni, Randy Goebel, Kostas Stathis
推理是人类智力的重要组成部分,它在我们的批判性思维、支持负责任的决策和解决具有挑战性的问题的能力中发挥着基础性作用。传统上,人工智能在基于逻辑的知识表示的背景下处理推理。然而,近年来,随着基于 Transformer 的语言模型的出现,自然语言处理取得了飞跃,这暗示着这些模型可能表现出推理能力,特别是在它们规模越来越大并在更多数据上进行训练的情况下。尽管关于语言模型中的推理是什么的讨论仍在继续,但仍然难以确定这些模型实际上在多大程度上能够进行推理。 本研讨会的目标是为来自不同学科和/或人工智能视角的研究人员创建一个平台,以探索方法和技术,旨在协调使用 Transformer 的语言模型与使用基于逻辑的表示之间的推理。具体目标包括分析语言模型的推理能力,同时衡量知识表示方法,将 KR 风格的推理能力注入语言模型(包括通过神经符号方式),以及形式化语言模型执行的推理类型。这种探索旨在揭示语言模型如何有效地整合和利用知识及其推理,从而提高它们在精度和可靠性至关重要的领域的应用和效用。
发布时间: 10/10/2024
查看原文
作者: Lauren Nicole DeLong, Yojana Gadiya, Paola Galdi, Jacques D. Fleuriot, Daniel Domingo-Fern\'andez
神经符号 (NeSy) 人工智能描述了逻辑或基于规则的技术与神经网络的结合。与神经方法相比,NeSy 方法通常具有更高的可解释性,这对于药物发现等生物医学应用特别有前景。然而,由于可解释性的定义很广泛,因此没有明确的指南来评估模型解释的生物学合理性。为了评估药物发现中可解释性,我们设计了一个新的预测任务,称为药物作用机制 (MoA) 解卷积,并设计了一个相关的定制知识图 (KG),即 MoA-net。然后,我们开发了 MoA 检索系统 (MARS),这是一种用于药物发现的 NeSy 方法,它利用逻辑规则和学习的规则权重。使用这种可解释特征以及领域知识,我们发现 MARS 和其他在 KG 上的 NeSy 方法容易受到推理捷径的影响,其中真标签的预测是由“度偏差”而不是基于领域的规则驱动的。随后,我们展示了识别和减轻这种偏差的方法。此后,MARS 在性能上与当前最先进的模型相当,同时产生了与已知 MoA 一致的模型解释。
发布时间: 10/10/2024
查看原文
作者: Mengxi Wu, Hao Huang, Yi Fang, Mohammad Rostami
无监督领域自适应 (UDA) 对于减少在点云数据上训练深度网络时对大量人工数据标注的需求至关重要。UDA 的一个重大挑战在于有效地弥合领域差距。为了应对这一挑战,我们提出了 **曲率多样性驱动的核范数 Wasserstein 领域对齐 (CDND)**。我们的方法首先引入了一个 **曲率多样性驱动的变形重建 (CurvRec)** 任务,该任务通过使模型能够从给定点云的语义丰富区域提取显著特征,有效地减轻了源域和目标域之间的差距。然后,我们提出了 **基于变形的核范数 Wasserstein 差异 (D-NWD)**,它将核范数 Wasserstein 差异应用于 **变形和原始** 数据样本,以对齐源域和目标域。此外,我们为 D-NWD 在分布对齐方面的有效性提供了理论依据,并证明了它足够 **通用**,可以应用于 **任何** 变形。为了验证我们的方法,我们在两个公开的领域自适应数据集上进行了广泛的实验,用于点云分类和分割任务。实证实验结果表明,我们的 CDND 在现有方法的基础上,以显著的优势取得了最先进的性能。
发布时间: 10/8/2024
查看原文
作者: Hadas Orgad, Michael Toker, Zorik Gekhman, Roi Reichart, Idan Szpektor, Hadas Kotek, Yonatan Belinkov
大型语言模型(LLMs)经常产生错误,包括事实上的不准确、偏差和推理失败,统称为“幻觉”。最近的研究表明,LLMs 的内部状态编码了关于其输出真实性的信息,并且该信息可用于检测错误。在本研究中,我们表明 LLMs 的内部表示编码了比以前认识到的关于真实性的更多信息。我们首先发现,真实性信息集中在特定标记中,利用此属性可显着提高错误检测性能。然而,我们表明,此类错误检测器无法跨数据集泛化,这意味着 - 与先前的说法相反 - 真实性编码并非普遍存在,而是多方面的。接下来,我们表明,内部表示也可用于预测模型可能产生的错误类型,从而促进定制缓解策略的开发。最后,我们揭示了 LLMs 的内部编码和外部行为之间的差异:它们可能编码了正确答案,但始终生成错误答案。总而言之,这些见解从模型的内部视角深化了我们对 LLM 错误的理解,这可以指导未来关于增强错误分析和缓解的研究。
发布时间: 10/8/2024
查看原文
作者: John X. Morris, Alexander M. Rush
密集文档嵌入是神经检索的核心。主流范式是通过直接在单个文档上运行编码器来训练和构建嵌入。在这项工作中,我们认为这些嵌入虽然有效,但对于检索的特定用例来说,它们是隐式地脱离上下文的,并且上下文化的文档嵌入应该同时考虑文档和上下文中的相邻文档——类似于上下文化的词嵌入。我们提出了两种互补的上下文化文档嵌入方法:第一种方法是使用一种替代的对比学习目标,将文档邻居明确地纳入批内上下文损失;第二种方法是使用一种新的上下文架构,将邻居文档信息明确地编码到编码后的表示中。结果表明,这两种方法在多种设置中都比双编码器取得了更好的性能,尤其是在域外情况下差异明显。我们在 MTEB 基准测试中取得了最先进的结果,没有使用硬负样本挖掘、得分蒸馏、特定于数据集的指令、GPU 内示例共享或极大的批次大小。我们的方法可以应用于改进任何对比学习数据集和任何双编码器的性能。
发布时间: 10/8/2024
查看原文
作者: Anthony Costarelli, Mat Allen, Severin Field
随着大型语言模型 (LLMs) 越来越融入我们的日常生活,它们欺骗行为带来的潜在危害突显了忠实解读其决策过程的必要性。虽然传统的探测方法已经展现出一定效果,但它们仍然最适合于范围狭窄的任务,而更全面的解释仍然是必要的。为此,我们研究了元模型——一种使用“元模型”的架构,该模型接收来自“输入模型”的激活并回答有关输入模型行为的自然语言问题。我们通过在选定的任务类型上训练元模型并评估它们在欺骗场景中的分布外性能来评估元模型的泛化能力。我们的研究结果表明,元模型可以很好地泛化到分布外任务,并为该领域的未来研究指明了方向。
发布时间: 10/8/2024
查看原文
对比学习已成为自监督视觉表征学习的主流方法。难负样本(与锚点样本高度相似)是增强学习表征判别能力的关键。然而,有效利用难负样本仍然是一个挑战。我们提出了 SynCo(对比学习中的合成负样本),一种通过在表征空间生成合成难负样本来提高模型性能的新方法。SynCo 基于 MoCo 框架,引入了六种策略,以最小的计算开销动态创建多样化的合成难负样本。SynCo 实现了更快的训练和更好的表征学习,在 200 个预训练 epoch 后 ImageNet ILSVRC-201 线性评估中获得了 67.9% 的 top-1 准确率,超过了使用相同 ResNet-50 编码器的 MoCo 的 67.5%。它还更有效地转移到检测任务:在 PASCAL VOC 上,它以 82.6% 的 AP 超过了监督基线和 MoCo;在 COCO 上,它在边界框检测中以 41.0% 的 AP 和实例分割中以 35.7% 的 AP 设定了新的基准。我们的合成难负样本生成方法显着增强了通过自监督对比学习学习到的视觉表征。代码可在 https://github.com/giakoumoglou/synco 获取。
发布时间: 10/8/2024
查看原文
作者: Genta Indra Winata, David Anugraha, Lucky Susanto, Garry Kuwanto, Derry Tanti Wijaya
理解性能评估指标的质量对于确保模型输出与人类偏好一致至关重要。然而,目前尚不清楚每个指标在多大程度上能够捕捉到这些偏好的不同方面,因为指标通常在一个特定领域表现出色,但在所有维度上并非如此。为了解决这个问题,必须系统地将指标校准到人类偏好的特定方面,以满足每个方面的独特特征。我们介绍了 MetaMetrics,这是一种经过校准的元指标,旨在以监督的方式评估跨不同模态的生成任务。MetaMetrics 优化了现有指标的组合,以增强它们与人类偏好的匹配度。我们的指标在语言和视觉下游任务中都展现出灵活性和有效性,在各种多语言和多领域场景中显示出显著优势。MetaMetrics 与人类偏好高度一致,并且具有高度可扩展性和易于集成到任何应用程序中。这使得 MetaMetrics 成为改进生成任务评估的强大工具,确保指标能够更具代表性地反映人类在不同背景下的判断。
发布时间: 10/8/2024
查看原文