arXiv 论文列表

作者: Yihong Luo, Yuhan Chen, Siya Qiu, Yiwei Wang, Chen Zhang, Yan Zhou, Xiaochun Cao, Jing Tang

图神经网络 (GNN) 在节点分类任务中表现出优越的性能。然而，GNN 在少样本节点分类 (FSNC) 任务中的表现不佳，该任务需要强大的泛化能力才能对具有有限标签的未见类别进行准确预测。为了应对这一挑战，我们提出将锐度感知最小化 (SAM)——一种旨在通过寻找损失函数景观的平坦最小值来增强模型泛化能力的技术——集成到 GNN 训练中。然而，标准 SAM 方法在每次训练迭代中包含两个前向后向步骤，与基础优化器（例如，Adam）相比，计算成本增加了一倍。为了减轻这一缺点，我们引入了一种新颖的算法，快速图锐度感知最小化 (FGSAM)，它将多层感知器 (MLP) 的快速训练与 GNN 的优越性能相结合。具体来说，我们利用 GNN 进行参数扰动，同时利用 MLP 来最小化扰动损失，以便我们可以更有效地找到具有良好泛化能力的平坦最小值。此外，我们的方法重新利用扰动阶段的梯度，将图拓扑几乎以零额外成本融入最小化过程。为了进一步提高训练效率，我们开发了 FGSAM+，它定期执行精确扰动。大量的实验表明，我们提出的算法在 FSNC 任务中以较低的计算成本优于标准 SAM。特别是，我们的 FGSAM+ 作为 SAM 的一种变体，在大多数情况下比基础优化器提供更快的优化速度。除了 FSNC 之外，我们提出的方法还在异质图的标准节点分类任务中也表现出具有竞争力的性能，突出了其广泛的适用性。代码可在 https://github.com/draym28/FGSAM_NeurIPS24 获取。

发布时间: 10/23/2024

查看原文

基于Transformer的编码器-解码器模型在类人文本摘要中的评估

作者: Sindhu Nair, Y. S. Rao, Radha Shankarmani

近年来，从海量文本中提取有价值信息取得了显著进展。尤其在当今社交媒体时代，人们期望快速获取信息。自动文本摘要旨在通过将大型文本压缩成更易于管理的摘要来解决这个问题。这一重要的研究领域可以通过从海量文本中挖掘出重要内容来辅助决策。随着深度学习模型的进步，语言模型方面涌现出大量工作。深度学习中的编码器-解码器框架已成为自动文本摘要的核心方法。这项工作利用基于 Transformer 的 BART 模型进行类人文本摘要，这是一个充满挑战的开放性问题。在对编码器-解码器模型进行训练和微调后，我们使用各种样本文章对其进行测试，并基于人工评估参数评估不同样本摘要的质量。此外，我们将微调后的模型性能与基于 ROUGE 分数和 BERTScore 等评估指标的基线预训练模型进行了比较。此外，为了提高对话参与者之间抽象摘要的性能，需要对模型进行领域自适应。研究发现，上述常用的评估指标对事实错误不敏感。我们使用 WeCheck 和 SummaC 等当代事实一致性评估指标，对微调模型生成的摘要进行了进一步研究。对 BBC 新闻文章的实证结果表明，人工编写的黄金标准摘要比微调模型生成的抽象摘要在事实一致性方面高出 17%。

发布时间: 10/23/2024

查看原文

PerspectiveNet：用于动态场景理解的多视角感知

作者: Vinh Nguyen

从多个摄像头和视角生成详细描述具有挑战性，因为视觉数据的性质复杂且不一致。本文介绍了PerspectiveNet，这是一种轻量级且高效的模型，用于跨多个摄像头视图生成长描述。我们的方法利用视觉编码器、一个紧凑的连接模块（将视觉特征转换为固定大小的张量）以及大型语言模型（LLM），以利用LLM强大的自然语言生成能力。连接模块的设计具有三个主要目标：将视觉特征映射到LLM嵌入中，强调描述生成所需的关键信息，以及生成固定大小的特征矩阵。此外，我们通过一个辅助任务（正确的帧序列检测）来增强我们的解决方案，使模型能够搜索正确的帧序列以生成描述。最后，我们将连接模块、辅助任务、LLM和视觉特征提取模型集成到单个架构中，该架构针对交通安全描述和分析任务进行训练。此任务需要根据多个摄像头和视角生成事件的详细、细粒度的描述。生成的模型轻量级，确保高效的训练和推理，同时保持高度有效。

发布时间: 10/23/2024

查看原文

基于子空间正则化的受控低秩自适应在大语言模型持续训练中的应用

作者: Yuheng Lu, Bingshuo Qian, Caixia Yuan, Huixing Jiang, Xiaojie Wang

大型语言模型 (LLM) 在自然语言处理方面展现出非凡的能力，但在学习新任务时面临灾难性遗忘问题，其中适应新领域会导致先前任务的性能大幅下降。本文提出了一种基于 LoRA 结构的子空间正则化方法——受控 LoRA (CLoRA)。CLoRA 旨在在对模型容量施加最小约束的同时减少输出变化的规模，它对更新矩阵零空间的方向施加约束。在常用 LLM 微调任务上的实验结果表明，CLoRA 在域内和域外评估中均显著优于现有的 LoRA 后续方法，突出了 CLoRA 作为一种有效的参数高效微调方法以及缓解灾难性遗忘的优越性。对模型参数的进一步研究表明，CLoRA 有效地平衡了模型容量和遗忘程度之间的权衡。

发布时间: 10/23/2024

查看原文

基于得分隐式匹配的单步扩散蒸馏

作者: Weijian Luo, Zemin Huang, Zhengyang Geng, J. Zico Kolter, Guo-jun Qi

尽管扩散模型在许多生成任务上表现出色，但为了生成逼真的样本，它们需要大量的采样步骤。这促使研究界开发有效的方法，将预训练的扩散模型蒸馏成更高效的模型，但这些方法通常仍然需要少步推理，或者性能远不如底层模型。在本文中，我们提出了分数隐式匹配（SIM），这是一种将预训练扩散模型蒸馏成单步生成模型的新方法，同时保持与原始模型几乎相同的样本生成能力，并且无需数据，不需要蒸馏的训练样本。该方法基于这样一个事实：虽然传统的基于分数的损失对于生成模型来说难以最小化，但在某些条件下，我们可以有效地计算扩散模型和生成器之间广泛类别基于分数的散度的梯度。SIM 在单步生成器上显示出强大的经验性能：在 CIFAR10 数据集上，它在无条件生成中实现了 2.06 的 FID，在类条件生成中实现了 1.96 的 FID。此外，通过将 SIM 应用于领先的基于 Transformer 的扩散模型，我们为文本到图像 (T2I) 生成蒸馏出一个单步生成器，该生成器在没有性能下降的情况下获得了 6.42 的美学分数，明显优于其他单步生成器，包括 SDXL-TURBO（5.33）、SDXL-LIGHTNING（5.34）和 HYPER-SDXL（5.85）。我们将与本文一起发布这个面向行业的基于 Transformer 的单步 T2I 生成器。

发布时间: 10/23/2024

查看原文

答案修正：基于后处理方法增强多片段问答

作者: Jiayi Lin, Chenyang Zhang, Haibo Tong, Dongyu Zhang, Qingqing Hong, Bingxuan Hou, Junli Wang

多跨度问答 (MSQA) 要求模型从给定文本中提取一个或多个答案跨度来回答问题。先前的工作主要集中于设计特定方法或应用启发式策略来鼓励模型预测更多正确的答案。然而，这些模型是在黄金答案上进行训练的，没有考虑错误预测。通过统计分析，我们观察到能力更强的模型与其他模型相比，并不预测更少的错误答案。在这项工作中，我们提出了一个答案-分类-校正 (ACC) 框架，它采用了一种后处理策略来处理错误预测。具体来说，ACC 框架首先引入一个分类器，将预测结果分为三种类型并排除“错误预测”，然后引入一个校正器来修改“部分正确预测”。在几个 MSQA 数据集上的实验表明，ACC 框架显著提高了精确匹配 (EM) 分数，进一步的分析表明，ACC 框架有效地减少了错误预测的数量，提高了预测质量。

发布时间: 10/23/2024

查看原文

超越检索：对话推荐系统中的叙事生成

作者: Krishna Sayana, Raghavendra Vasudeva, Yuri Vasilevski, Kun Su, Liam Hebert, Hubert Pham, Ambarish Jash, Sukhdeep Sodhi

大型语言模型 (LLM) 在生成和推理能力方面的最新进展为开发真正对话式的推荐系统提供了机会。然而，将推荐系统知识有效地集成到面向推荐任务的自然语言生成 LLM 中仍然是一个挑战。本文通过两项主要贡献解决了这一挑战。首先，我们引入了一个用于对话推荐中自然语言生成任务的新数据集 (REGEN)。REGEN（Reviews Enhanced with GEnerative Narratives，增强生成叙事的评论）通过丰富的用户叙述扩展了亚马逊产品评论数据集，包括个性化的产品偏好解释、推荐商品的背书以及用户购买历史摘要。REGEN 已公开发布，以促进进一步的研究。此外，我们使用著名的生成指标建立了基准，并使用评分 LLM 对新数据集进行了自动评估。其次，本文介绍了一种融合架构（带有 LLM 的 CF 模型），作为 REGEN 的基线。据我们所知，这是首次尝试分析 LLM 在理解推荐信号和生成丰富叙事方面的能力。我们证明了 LLM 可以有效地从利用基于交互的 CF 嵌入的简单融合架构中学习，并且这可以通过使用与项目相关的元数据和个性化数据进一步增强。我们的实验表明，与单独使用任一类型的嵌入相比，结合 CF 和内容嵌入可以使关键语言指标提高 4-12%。我们还提供了一项分析来解释 CF 和内容嵌入如何促成这项新的生成任务。

发布时间: 10/23/2024

查看原文

场景语言：用程序、词语和嵌入表示场景

作者: Yunzhi Zhang, Zizhang Li, Matt Zhou, Shangzhe Wu, Jiajun Wu

我们提出了一种场景语言，这是一种简洁而精确地描述视觉场景结构、语义和身份的视觉场景表示方法。它用三个关键组件来表示场景：一个程序，用于指定场景中实体的层次和关系结构；自然语言中的词语，用于概括每个实体的语义类别；以及捕捉每个实体视觉身份的嵌入。给定文本或图像输入，这种表示可以通过免训练的推理技术从预训练语言模型中推断出来。生成的场景可以使用传统、神经或混合图形渲染器渲染成图像。总而言之，这形成了一个强大的、自动化的高质量3D和4D场景生成系统。与现有的场景图等表示方法相比，我们提出的场景语言能够生成保真度更高的复杂场景，同时显式地建模场景结构以实现精确的控制和编辑。

发布时间: 10/23/2024

查看原文

生存模型：正确的评分规则与竞争风险下的随机优化

作者: Julie Alberge (SODA), Vincent Maladi\`ere (SODA), Olivier Grisel (SODA), Judith Ab\'ecassis (SODA), Ga\"el Varoquaux (SODA)

在处理右删失数据（由于观察期有限而导致某些结果缺失）时，生存分析（也称为事件时间分析）侧重于预测直至感兴趣事件发生的时间。多类别结果导致了一种分类变体：预测最可能的事件，这是一个鲜为人知的领域，称为竞争风险。经典的竞争风险模型将架构和损失函数耦合在一起，限制了可扩展性。为了解决这些问题，我们设计了一个严格正确的删失调整可分离评分规则，允许在数据子集上进行优化，因为每个观察值都是独立评估的。该损失函数估计结果概率，并支持竞争风险的随机优化，我们将其用于高效的梯度提升树。SurvivalBoost 不仅在 4 个真实数据集上的多个指标上都优于 12 个最先进的模型（在竞争风险和生存环境中），而且还具有良好的校准性、能够预测任何时间范围以及比现有方法更快的计算速度。

发布时间: 10/23/2024

查看原文

深海A*+：一种集成增强A*算法和动态窗口法的自主水下航行器高级路径规划方法

作者: Yinyi Lai, Jiaqi Shang, Zenghui Liu, Zheyu Jiang, Yuyang Li, Longchao Chen

随着陆地资源日益枯竭，对深海资源勘探的需求日益增强。然而，深海环境的极端条件给水下作业带来了巨大挑战，需要开发强大的探测机器人。本文提出一种先进的路径规划方法，该方法将改进的A*算法与动态窗口法(DWA)相结合。通过优化传统A*算法的搜索方向并引入改进的评估函数，改进的A*算法加速了路径搜索并降低了计算负荷。此外，路径平滑过程得到了改进，提高了连续性和平滑性，最大限度地减少了急转弯。该方法还通过DWA将全局路径规划与局部动态避障相结合，提高了水下机器人在动态环境中的实时响应能力。仿真结果表明，该方法在路径平滑性、避障性和实时性方面均优于传统的A*算法。该方法在包含静态和动态障碍物的复杂环境中的鲁棒性突出了其在自主水下航行器(AUV)导航和避障方面的潜力。

发布时间: 10/23/2024

查看原文