arXiv 论文列表

作者: Weihan Xu, Paul Pu Liang, Haven Kim, Julian McAuley, Taylor Berg-Kirkpatrick, Hao-Wen Dong

预告片是推广娱乐、商业和教育领域内容的有效工具。然而，为长视频创建有效的预告片具有挑战性，因为它需要对输入视频进行长距离多模态建模，同时需要保持视听对齐、管理场景变化并保持输出预告片的真实性。由于缺乏公开可用的数据集，这一研究方向的进展受到了阻碍。在这项工作中，我们提出了 DocumentaryNet，一个包含 1269 部纪录片及其预告片的集合，其中包含视频、语音、音乐、音效和旁白的多种数据流。利用 DocumentaryNet，我们提出了一种新的两阶段系统，用于从长纪录片中生成预告片。提出的 TeaserGen 系统首先使用预训练的大型语言模型从纪录片的转录旁白中生成预告片旁白，然后通过语言-视觉模型选择与生成的旁白最相关的视觉内容。对于旁白-视频匹配，我们探索了两种方法：一种基于预训练的模型，使用预训练的对比语言-视觉模型，以及一种深度序列模型，该模型学习旁白和视觉之间的映射。我们的实验结果表明，基于预训练的方法在识别相关视觉内容方面比直接训练的深度自回归模型更有效。

发布时间: 10/10/2024

查看原文

基于Transformer的鲁棒航天器轨迹优化方法

作者: Yuji Takubo, Tommaso Guffanti, Daniele Gammelli, Marco Pavone, Simone D'Amico

未来多航天器任务需要强大的自主轨迹优化能力来确保安全有效的交会操作。这种能力取决于实时解决非凸最优控制问题，尽管传统的迭代方法如序列凸规划带来了巨大的计算挑战。为了减轻这种负担，自主交会Transformer (ART) 引入了一种生成模型，该模型经过训练可以提供接近最优的初始猜测。这种方法可以收敛到更好的局部最优解（例如，燃料最优），提高可行性率，并通过热启动加速优化算法的收敛速度。这项工作扩展了 ART 的能力，以解决鲁棒的概率约束最优控制问题。具体而言，ART 被应用于低地球轨道 (LEO) 中具有挑战性的交会场景，确保在不确定性条件下的容错行为。通过大量实验，所提出的热启动策略被证明能够始终如一地生成高质量的参考轨迹，与传统方法相比，成本提高了 30%，不可行情况减少了 50%，证明了在多种状态表示下具有鲁棒的性能。此外，还提出了一种事后评估框架来评估生成轨迹的质量并减轻运行时故障，标志着将 AI 驱动的解决方案可靠地部署到安全关键的自主系统（如航天器）中的第一步。

发布时间: 10/10/2024

查看原文

重新思考奖励模型评估：我们是否在错误的方向上努力？

作者: Xueru Wen, Jie Lou, Yaojie Lu, Hongyu Lin, Xing Yu, Xinyu Lu, Ben He, Xianpei Han, Debing Zhang, Le Sun

奖励模型（RM）对于将语言模型与人类偏好对齐至关重要。目前，RM 的评估依赖于根据手动标注的偏好数据验证集来衡量其准确性。尽管这种方法简单易行且被广泛采用，但 RM 准确性和下游策略性能之间的关系仍未得到充分探索。在这项工作中，我们在一个合成环境中进行实验，以研究 RM 准确性衡量出的差异如何转化为优化策略性能的差距。我们的发现表明，虽然准确性和下游性能之间存在弱正相关性，但针对准确性相似的 RM 进行优化的策略可能会表现出截然不同的性能。此外，我们发现，准确性的衡量方式会显著影响其预测最终策略性能的能力。通过回归型古德哈特效应的视角，我们识别出了影响 RM 质量（通过准确性衡量）与策略模型能力之间关系的外生变量的存在。这突出了仅仅依靠准确性来反映其对策略优化的影响是不够的。

发布时间: 10/10/2024

查看原文

负合并：用于强大机器遗忘的共识权重否定

作者: Hyoseo Kim, Dongyoon Han, Junsuk Choe

机器遗忘学习旨在从模型中选择性地删除特定知识。现有的方法，例如任务算术，依赖于在遗忘集上微调模型，生成任务向量，并将其从原始模型中减去。然而，我们认为这种方法的有效性高度依赖于超参数的选择，需要仔细验证才能在众多微调候选模型中确定最佳模型。在本文中，我们提出了一种新方法，利用所有给定的微调模型，而不是选择单个模型。通过从具有不同超参数训练的模型中构建任务向量，并仅合并具有一致符号的任务向量分量，我们通过从原始模型中否定合并后的任务向量来执行遗忘学习。鉴于现有方法也利用多个微调模型，我们的方法在不产生额外计算成本的情况下实现了更有效的遗忘学习。我们在视觉语言模型和标准图像分类模型上证明了我们方法的有效性，展示了在保留集上性能略微下降的情况下改进的遗忘学习性能，优于最先进的技术。

发布时间: 10/10/2024

查看原文

大型语言模型中的适应之旅：为什么额外的预训练有时无法改进？

作者: F{\i}rat \"Oncel, Matthias Bethge, Beyza Ermis, Mirco Ravanelli, Cem Subakan, \c{C}a\u{g}atay Y{\i}ld{\i}z

过去十年，深度学习模型的泛化和适应能力通常在固定训练和测试分布上进行评估。与传统深度学习不同，大型语言模型 (LLMs) 具有以下特点：(i) 参数量更多，(ii) 在从互联网上收集的无标签文本语料库上进行训练，人类干预最少，(iii) 以在线方式进行训练。这些鲜明的对比阻碍了研究人员将深度学习环境中关于模型泛化和适应的经验教训迁移到 LLMs 上。为此，我们的简短论文介绍了一些旨在阐明预训练语言模型进一步训练的经验观察。具体而言，我们证明了在文本领域上训练模型可能会降低其在同一领域测试部分上的困惑度。我们通过后续分析观察到，性能下降与 LLM 的附加预训练数据集和原始预训练数据集之间的相似性呈正相关。我们进一步的令牌级困惑度观察表明，困惑度下降是由于少数几个对领域没有信息性的令牌造成的。我们希望这些发现能够指导我们确定何时适应模型，何时依赖其基础能力。

发布时间: 10/10/2024

查看原文

Swift Sampler：仅用 10 个参数高效学习采样器

作者: Jiawei Yao, Chuming Li, Canran Xiao

数据选择对于训练深度学习模型至关重要。一个有效的数据采样器为训练数据分配适当的采样概率，帮助模型收敛到具有高性能的良好局部最小值。以往关于数据采样的研究主要基于启发式规则或通过大量耗时的试验进行学习。本文提出了一种自动 **快速采样器** 搜索算法 **SS**，以高效地探索自动学习有效采样器。特别是，**SS** 利用一种新颖的公式将采样器映射到一个低维超参数空间，并使用一个近似的局部最小值来快速评估采样器的质量。得益于其低计算成本，**SS** 可以高效地应用于大规模数据集。在各种任务上的综合实验表明，**SS** 驱动的采样可以实现显著的改进（例如，在 ImageNet 上提高 1.5%）并在不同的神经网络之间进行迁移。项目页面：https://github.com/Alexander-Yao/Swift-Sampler.

发布时间: 10/10/2024

查看原文

ClaimBrush：基于大型语言模型的专利权利要求自动细化框架

作者: Seiya Kawano, Hirofumi Nonaka, Koichiro Yoshino

专利申请中自动细化专利权利要求对于知识产权战略至关重要。本文提出了一种名为 ClaimBrush 的新型自动专利权利要求细化框架，包括数据集和重写模型。我们通过从专利审查流程中收集大量实际专利权利要求重写案例，构建了一个用于训练和评估专利权利要求重写模型的数据集。利用构建的数据集，我们通过微调大型语言模型构建了一个自动专利权利要求重写模型。此外，我们通过基于专利审查员办公室行为预测模型的偏好优化，增强了自动专利权利要求重写模型的性能。实验结果表明，我们提出的重写模型优于启发式基线和最先进的大型语言模型中的零样本学习。此外，基于专利审查员偏好的偏好优化提高了专利权利要求细化的性能。

发布时间: 10/10/2024

查看原文

TaeBench: 提高有毒对抗样本的质量

作者: Xuan Zhu, Dmitriy Bespalov, Liwen You, Ninad Kulkarni, Yanjun Qi

arXiv:2410.05573v1 宣传类型：跨学科摘要：毒性文本检测器可能容易受到对抗性示例的影响—输入文本的小幅扰动，导致系统错误地检测。现有的攻击算法费时且通常会产生无效或模棱两可的对抗性示例，这使得它们在评估或改进现实世界的毒性内容审查系统方面不太有用。本文提出了一种生成毒性对抗性示例（TAE）的质量控制注释管道。我们设计了基于模型的自动注释和基于人工的质量验证来评估TAE的质量要求。成功的TAE应该能够欺骗目标毒性模型产生良性预测，语义合理，看起来像自然生成的文本，并表现出语义毒性。当将这些要求应用于超过20种最新的（SOTA）TAE攻击配方时，我们发现总计940,000个原始TAE攻击生成中有许多无效样本。然后我们利用提出的管道过滤和编目了一个高质量的TAE数据集，命名为TaeBench（规模为264,000）。实证结果表明，TaeBench可以有效地转移攻击最新的毒性内容审查模型和服务。我们的实验还表明，使用对抗性训练的TaeBench可以显著提高两个毒性检测器的鲁棒性。

发布时间: 10/10/2024

查看原文

基于多步惩罚损失的混沌动力系统深度学习改进方法

作者: Dibyajyoti Chakraborty, Seung Whan Chung, Ashesh Chattopadhyay, Romit Maulik

预测混沌系统的长期行为仍然是一个巨大的挑战，因为它们对初始条件极其敏感，并且传统数据驱动建模方法存在固有的局限性。本文介绍了一种新颖的框架，该框架利用最近提出的多步惩罚（MP）优化技术来解决这些挑战。我们的方法将 MP 优化的适用性扩展到广泛的深度学习架构，包括傅里叶神经算子和 UNET。通过在预测轨迹中引入惩罚的局部不连续性，我们有效地处理了在训练用于混沌系统的深度神经网络时通常遇到的损失景观的非凸性。我们通过将其应用于两个具有挑战性的用例来证明我们方法的有效性：使用再分析数据预测二维湍流和海洋动力学中的流速演化。我们的结果突出了这种方法在准确和稳定地预测混沌动力学的长期行为方面的潜力，为复杂自然现象的数据驱动建模的新进展铺平了道路。

发布时间: 10/10/2024

查看原文

大型语言模型的理性元推理

作者: C. Nicol\`o De Sabbata, Theodore R. Sumers, Thomas L. Griffiths

大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/10/2024

查看原文