arXiv 论文列表

作者: Jianhong Chen, Ying Ma, Xubo Yue

arXiv:2412.09814v2 宣布类型: 替换交叉摘要：传统上，学习动态贝叶斯网络的结构是集中的，需要将所有数据集中在一个位置。然而，在现实场景中，数据往往分布在多个实体（例如，公司、设备）中，这些实体希望协同学习一个动态贝叶斯网络，同时保持数据隐私和安全。更重要的是，由于存在多样化的客户端，数据可能遵循不同的分布，导致数据异质性。这种异质性给中心化方法带来了额外的挑战。在这项研究中，我们首先介绍了一种联邦学习方法，用于估计水平分布在不同方的同质时间序列数据的动态贝叶斯网络结构。然后，我们通过在个性化联邦学习框架中引入一个proximal操作符作为正则化项，将这种方法扩展到异质时间序列数据。为此，我们提出了FDBNL和PFDBNL，这些建议的方法利用了连续优化，确保在优化过程中只交换模型参数。在合成数据集和真实世界数据集上的实验结果表明，我们的方法在许多客户端和个人样本量有限的场景中优于最先进的技术。

发布时间: 2/7/2025

查看原文

将 Weisfeiler-Lehman 核推广到子图

作者: Dongkwan Kim, Alice Oh

arXiv:2412.02181v2 公告类型: replace-cross 摘要：子图表示学习在解决各种现实世界问题时非常有效。然而，由于现有的图神经网络（GNNs）无法捕捉子图内部和之间的复杂交互，它们在子图级别任务上产生了次优的结果。为了提供一种更具表现力和高效的替代方案，我们提出了一种 WLKS，这是一种适用于子图的 Weisfeiler-Lehman（WL）核，通过在诱导的 $k$ 跳邻域上应用 WL 算法来实现。我们结合不同 $k$ 跳级别的核，以捕捉现有的模型中未完全编码的更丰富的结构信息。通过消除邻域采样的需求，我们的方法可以在表现能力和效率之间取得平衡。在八个真实世界和合成基准上的实验中，WLKS 在五个数据集上显著优于领先的方法，同时减少了训练时间，相比于最先进的方法，范围从 0.01 倍到 0.25 倍。

发布时间: 2/7/2025

查看原文

公平总结：摘要的质量与多样性之间的桥梁

作者: Sina Bagheri Nezhad, Sayan Bandyapadhyay, Ameeta Agrawal

arXiv:2411.07521v3 宣告类型: replace-cross 摘要：在用户生成内容的多文档摘要中实现公平性仍然是自然语言处理（NLP）中的一个关键挑战。现有的摘要方法往往无法确保不同社会群体的公平性表示，导致输出具有偏见。在本文中，我们介绍了两种新的公平抽取式总结方法：FairExtract，一种基于聚类的方法，和FairGPT，它利用了带有公平性约束的GPT-3.5-turbo。我们使用与白人、西班牙裔和非裔美国人方言推文相关的Divsumm总结数据集评估了这些方法，并将其与相关的基准方法进行了比较。使用一组全面的摘要质量评估指标（如SUPERT、BLANC、SummaQA、BARTScore和UniEval）以及公平性指标F获得的结果表明，FairExtract和FairGPT在保持竞争力的摘要质量的同时实现了更优的公平性。此外，我们引入了综合指标（例如SUPERT+F、BLANC+F），将质量和公平性整合到一个评估框架中，提供了更细致地理解这些目标之间权衡的洞察。这项工作突显了在总结中实现公平性的关键性，并为未来公平感知NLP模型的研究设定了基准。

发布时间: 2/7/2025

查看原文

自我训练结合一致性：以一致性驱动的解释评估提升LLMs的推理能力

作者: Jaehyeok Lee, Keisuke Sakaguchi, JinYeong Bak

arXiv:2411.06387v4 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）的自我训练方法通过在模型的自我生成的理由上进行训练来提高推理能力。以前的方法将生成正确答案的理由标签化以进行训练。然而，单一的衡量标准可能会错误地判断理由的质量，导致模型学会错误的推理模式。为了解决这一问题，我们提出了一种自我训练框架CREST（一致性驱动的自我生成理由评估），该框架进一步通过后续问题对每个理由进行评估，并利用这些评估来指导其训练。具体来说，我们引入了两种方法：（1）过滤掉在后续问题中经常导致错误答案的理由；（2）基于原始问题和后续问题理由评估结果的混合偏好进行偏好学习。使用开源LLM在三个问答数据集上的实验表明，CREST不仅提高了理由的逻辑稳健性和正确性，还相比以前的自我训练方法提高了推理能力。

发布时间: 2/7/2025

查看原文

适边学习：智能工具使用适应性在科学问题中grounding LLMs

作者: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

arXiv:2411.00412v3 公告类型: 替换交叉摘要：大型语言模型（LLMs）在解决简单的科学问题方面表现出色，但在解决复杂的科学问题时，即使经过领域特定的微调，也常常会产生幻觉。虽然将LLMs与工具集成可以缓解这种可靠性问题，但仅针对工具使用进行微调的模型往往过度依赖工具，即使对于简单的科学问题也会产生资源密集型的科学工具费用。受到人类专家在选择解决方案之前评估问题复杂程度的启发，我们提出了一种新颖的两步微调方法，即适配学习（Adapting While Learning，AWL）。在第一步中，世界知识学习（WKL），LLMs通过学习工具生成的解决方案来内化科学知识。在第二步中，工具使用适配（TUA），我们根据WKL训练模型的准确性将问题分类为简单或困难，并训练模型在简单问题上保持直接推理，而在困难问题上转向使用工具。我们在气候科学、流行病学和数学领域的6个科学基准数据集上验证了我们的方法。与基础8B模型相比，我们训练的模型在答案准确性上提高了28.27%，在工具使用准确性上提高了13.76%，甚至在4个自定义创建的数据集中超过了包括GPT-4和Claude-3.5在内的最新模型。

发布时间: 2/7/2025

查看原文

拆解 VAEs 中的数据缝合：理解去纠缠性

作者: Carl Allen

arXiv:2410.22559v4 Announce Type: replace-cross 摘要：解耦，即识别统计数据独立的因子，在从受控数据生成和稳健分类到高效编码以及提高我们对数据本身的理解等诸多机器学习领域都是相关的。解耦在多种生成范式中出现，包括变分自编码器（VAEs）、生成对抗网络和扩散模型。最近在VAEs中理解解耦方面取得了一些进展，其中显示了一种对角后验协方差矩阵的选择促进了解码器雅可比矩阵列之间的相互正交性。在此基础上，我们展示了这种正交性，即一个几何性质，如何转化为解耦，即一个统计性质，进一步加深了我们对VAE如何识别数据的独立分量或解耦数据的理解。

发布时间: 2/7/2025

查看原文

崩溃或繁荣？合成数据在自我生成世界中的风险与promise

作者: Joshua Kazdan, Rylan Schaeffer, Apratim Dey, Matthias Gerstgrasser, Rafael Rafailov, David L. Donoho, Sanmi Koyejo

arXiv:2410.16713v3 宣布类型：替换交叉摘要：当生成机器学习模型在包含早期模型生成的数据的大规模网络数据集上进行预训练时会发生什么？一些先前提到过"模型崩溃"的可能性，因为网络被合成数据所淹没；其他工作则认为可以通过管理用于预训练的数据来限制问题（即避免模型崩溃）。在本文中，我们报告了三种使用数据（训练流程）在三种生成模型任务设置（多元高斯估计、核密度估计和语言模型微调）上的实验，以进一步确认是否可以限制该问题：(a) 我们确认，在所有研究的任务设置中，通过依次用纯粹合成数据替换所有真实数据的训练流程确实会导致模型崩溃；(b) 我们考虑了一种积累合成数据并同时保留真实数据进行训练的流程，并确认尽管真实数据的比例最终会变为零，但在这种训练流程下，模型仍然保持稳定且其测试损失不会发散；(c) 我们考虑了一种流程，其中真实数据和合成数据一起积累，但在预训练的每一代中使用固定大小的数据子集。在这种流程中，我们观察到测试损失表现逐渐而不是突然下降。我们的见解在预测未来前沿生成模型是否会崩溃或繁荣时尤为重要，我们的结果为实证和数学地研究合成数据的上下文相关价值打开了道路。

发布时间: 2/7/2025

查看原文

Bench4Merge：在现实密集traffic中合并微观互动车辆的综合基准测试

作者: Zhengming Wang, Junli Wang, Pengfei Li, Zhaohan Li, Peng Li, Yilun Chen

arXiv:2410.15912v2 更新类型: replace-cross 摘要：尽管自主驾驶的能力已经取得了快速进步，但与密集交通流汇入仍然是一个重大挑战。针对这一场景已经提出了许多运动规划方法，但很难评估它们的质量。大多数现有的闭环模拟器依赖基于规则的控制来处理其他车辆的行为，这导致了缺乏多样性和随机性，从而无法准确评估在高度交互场景中的运动规划能力。此外，传统的评估指标对于全面评估密集交通流中的并线性能是不够的。为应对这些挑战，我们提出了一种闭环评估基准，用于评估并线场景中的运动规划能力。我们的方法包括训练在大规模数据集中的其他车辆，这些车辆具有微行为特征，显著增加了复杂性和多样性。此外，我们通过利用大型语言模型重构了评估机制，以评估每辆自主车辆进入主路的情况。广泛的实验已经证明了此评估基准的先进性。通过这一基准，我们已经对现有方法进行了评估并识别出了常见问题。我们设计的环境和车辆运动规划模型可以在 https://anonymous.4open.science/r/Bench4Merge-EB5D 访问。

发布时间: 2/7/2025

查看原文

在LLM监督微调和偏好学习中减轻遗忘问题

作者: Heshan Fernando, Han Shen, Parikshit Ram, Yi Zhou, Horst Samulowitz, Nathalie Baracaldo, Tianyi Chen

arXiv:2410.15483v3 宣告类型: replace-cross 摘要：预训练大语言模型（LLM）的后训练，通常包括监督微调（SFT）阶段和偏好学习（RLHF或DPO）阶段，对于有效和安全的LLM应用至关重要。在后训练广泛采用的方法中，通常会依次进行SFT和RLHF/DPO。然而，从SFT到RLHF/DPO的顺序训练在两者之间的权衡上是次优的：当进行第二阶段的训练时，LLM会逐渐忘记第一阶段的训练内容。我们理论上证明了顺序后训练的次优性。此外，我们提出了一种实用的联合后训练框架，该框架具有理论上的收敛保证，并且在实践中表现优于顺序后训练框架，同时具有相似的计算成本。我们的代码可在 https://github.com/heshandevaka/XRIGHT 获取。

发布时间: 2/7/2025

查看原文

基于复杂性的组合性理论

作者: Eric Elmoznino, Thomas Jiralerspong, Yoshua Bengio, Guillaume Lajoie

arXiv:2410.14817v4 通告类型: replace-cross 摘要：组合性被认为是智能的基本要素。在人类中，它构成了思维、语言和高层次推理的结构。在人工智能中，组合性表示可以实现一种强大的跨分布推广形式，在这种形式中，模型系统地适应已知概念的新组合。然而，尽管我们对组合性是什么有很强的直觉，但目前尚无可量化的数学形式定义。在这里，我们提出这样一个定义，称为表示性组合性，这一定义考虑并扩展了我们对组合性的直觉。该定义概念上简单，是定量的，并基于算法信息论，适用于任何表示。直觉上，表示性组合性表明一个组合性表示必须满足三个属性。首先，它必须具有表现力。其次，它必须能够重新描述为由可重新组合的部分组成的离散符号序列的函数，类似于自然语言中的句子。第三，将这些符号序列与表示关联起来的函数，类似于自然语言中的语义，必须简单。通过在合成数据和真实世界数据上的实验，我们验证了我们对组合性的定义，并展示了如何它在人工智能和认知科学文献中跨领域的不同直觉达成统一。我们还展示了表示性组合性，尽管在理论上难以处理，但可以使用标准的深度学习工具轻松估计。我们的定义有可能启发设计出更符合组合性思维机制的新型、理论驱动的模型。

发布时间: 2/7/2025

查看原文