arXiv 论文列表

作者: Zhiwei Tang, Jiangweizhi Peng, Jiasheng Tang, Mingyi Hong, Fan Wang, Tsung-Hui Chang

本研究关注扩散模型与连续奖励函数的对齐问题，该函数代表了特定下游任务的目标，例如增加图像的黑暗度或改善图像的美感。对齐问题的核心目标是调整扩散模型学习的分布，使得生成的样本最大化目标奖励函数。我们提出了一种名为直接噪声优化（DNO）的新型对齐方法，该方法优化了扩散模型采样过程中注入的噪声。通过设计，DNO 在推理时运行，因此无需调整且与提示无关，对齐在生成过程中以在线方式进行。我们严格研究了 DNO 的理论性质，并提出了处理不可微奖励函数的变体。此外，我们发现 DNO 的朴素实现偶尔会遇到分布外奖励攻击问题，即优化后的样本具有较高的奖励，但不再是预训练分布的支持。为了解决这个问题，我们利用经典的高维统计理论来开发一种有效的概率正则化技术。我们对几个重要的奖励函数进行了大量的实验，结果表明，所提出的 DNO 方法可以在合理的生成时间预算内实现最先进的奖励得分。

发布时间: 10/3/2024

查看原文

基于多样的奖励模型，实现经济高效的在线多语言模型选择

作者: Xiangxiang Dai, Jin Li, Xutong Liu, Anqi Yu, John C. S. Lui

随着大型语言模型（LLM）的快速发展，多LLM任务的多样性和其定价结构的可变性变得越来越重要，因为不同LLM之间的成本差异可能很大。为了应对这些挑战，我们引入了*C2MAB-V*，一种**具有多种奖励模型的** **成本效益** **组合** **多臂** **老虎机**，用于优化LLM选择和使用。该在线模型不同于传统的静态方法或那些不考虑成本的单一LLM方法。通过在调度云上部署多个LLM，以及一个专门用于处理用户查询的本地服务器，*C2MAB-V* 促进了在组合搜索空间中选择多个LLM，专门针对具有不同奖励模型的各种协作任务类型。基于我们设计的在线反馈机制和置信界限技术，*C2MAB-V* 可以通过管理不同模型之间的探索-利用权衡来有效地解决多LLM选择挑战，同时平衡不同任务的成本和奖励。通过以下方法解决了选择多个LLM的NP-hard整数线性规划问题，该问题存在权衡困境：i）由本地服务器将整数问题分解为松弛形式；ii）利用离散化舍入方案，由调度云提供最佳的LLM组合；iii）基于反馈进行持续在线更新。从理论上讲，我们证明*C2MAB-V* 在多种奖励模型上提供了严格的保证，在某些退化情况下与最先进的结果相匹配。在经验上，我们证明*C2MAB-V* 在三种应用场景中，使用九个LLM有效地平衡了性能和成本效益。

发布时间: 10/3/2024

查看原文

可解释的分子性质预测：通过语言模型将化学概念与预测结果对齐

作者: Zhenzhong Wang, Zehui Lin, Wanyu Lin, Ming Yang, Minggang Zeng, Kay Chen Tan

为许多科学领域（如药物发现和材料科学）提供可解释的分子性质预测至关重要。尽管基于 Transformer 的语言模型在准确预测分子性质方面展现出巨大潜力，但它们既没有提供化学意义上的解释，也没有忠实地揭示分子结构与性质之间的关系。在这项工作中，我们开发了一个基于语言模型的可解释分子性质预测框架，称为 Lamole，它可以提供与化学概念一致的解释。我们将基于字符串的分子表示——Group SELFIES——作为输入令牌来预训练和微调我们的 Lamole，因为它提供了化学意义上的语义。通过解开 Lamole 的信息流，我们建议将自注意力权重和梯度结合起来，以更好地量化每个化学意义上的子结构对模型输出的影响。为了使解释更忠实地尊重结构-性质关系，我们随后精心设计了一个边缘损失，以明确优化解释，使其能够与化学家的注释保持一致。我们将流形假设与精心设计的边缘损失联系起来，以证明该损失可以将解释与数据流形的切空间对齐，从而产生与概念一致的解释。对六个致突变数据集和一个肝毒性数据集的实验结果表明，Lamole 可以实现相当的分类精度，并将解释精度提高高达 14.3%，成为可解释分子性质预测领域的最先进技术。

发布时间: 10/3/2024

查看原文

NuwaTS：一个修复所有不完整时间序列的基础模型

作者: Jinguo Cheng, Chunwei Yang, Wanlin Cai, Yuxuan Liang, Qingsong Wen, Yuankai Wu

时间序列插补对于许多现实世界中的应用至关重要，并且已被广泛研究。然而，现有模型通常需要针对特定缺失模式、变量或领域的专门设计，这限制了它们的泛化能力。此外，当前的评估框架主要关注特定领域的任务，并且通常依赖于时间上的训练/验证/测试数据分割，这无法严格评估模型跨未见变量或领域泛化的能力。在本文中，我们提出了**NuwaTS**，一个将预训练语言模型 (PLM) 用于一般时间序列插补的新框架。一旦训练完成，NuwaTS 可以应用于跨任何领域插补缺失数据。我们为每个子序列补丁引入了专门的嵌入，捕捉有关补丁、其缺失数据模式及其统计特征的信息。通过将对比学习与插补任务相结合，我们训练 PLM 创建一个通用的、一劳永逸的插补模型。此外，我们采用了一种即插即用的微调方法，能够以最小的调整有效地适应特定领域的任务。为了评估跨变量和跨域泛化，我们提出了一种新的基准测试协议，该协议沿变量维度划分数据集。在来自不同领域的超过 1700 万个时间序列样本上的实验结果表明，NuwaTS 在我们提出的基准测试协议下，在各种数据集上优于最先进的特定领域模型。此外，我们表明 NuwaTS 能够泛化到其他时间序列任务，例如预测。我们的代码可在 https://github.com/Chengyui/NuwaTS 获取。

发布时间: 10/3/2024

查看原文

MallowsPO：利用偏好分散微调你的大型语言模型

作者: Haoxian Chen, Hanyang Zhao, Henry Lam, David Yao, Wenpin Tang

直接偏好优化（DPO）最近成为改进人类反馈强化学习（RLHF）的一种流行方法，从而产生了更好的技术来微调大型语言模型（LLM）。然而，DPO 的一个弱点在于它缺乏表征人类偏好多样性的能力。受马洛斯偏好排序理论的启发，本文提出了一种新的方法，即马洛斯偏好优化（MallowsPO）。该方法的一个显著特点是分散指数，它反映了人类对提示的偏好分散程度。我们证明了现有的 DPO 模型可以简化为该分散指数的特例，从而与 MallowsPO 统一起来。更重要的是，我们证明了如何利用该分散指数来提高 DPO 在各种基准任务中的性能，从合成强盗选择到可控生成和对话，同时保持良好的泛化能力。MallowsPO 也与其他最先进的离线偏好优化方法兼容，在用作微调 Llama3-Instruct 的插件时，额外提高了近 2% 的 LC 胜率。

发布时间: 10/3/2024

查看原文

基于网络规模图像对的条件扩散模型，实现图像的多样化变体生成

作者: Manoj Kumar, Neil Houlsby, Emiel Hoogeboom

生成图像变体，即模型在保留语义上下文的情况下生成输入图像的变体，已引起越来越多的关注。目前的图像变体技术涉及调整文本到图像模型，以根据同一图像的条件重建输入图像。我们首先证明，一个训练用于从冻结嵌入重建输入图像的扩散模型可以重建具有微小变化的图像。其次，受文本到图像模型如何从网络规模的文本图像对中学习的启发，我们探索了一种新的预训练策略，使用大量图像对生成图像变体。我们的扩散模型Semantica接收来自网页的随机（编码）图像作为条件输入，并对来自同一网页的另一个噪声随机图像进行去噪。我们仔细检查了图像编码器的各种设计选择，因为它在从输入图像中提取相关上下文中起着至关重要的作用。经过训练后，Semantica可以通过简单地使用来自该数据集的图像作为输入，自适应地从数据集中生成新图像。最后，我们确定了标准图像一致性度量在评估图像变体方面的局限性，并根据少量样本生成提出了替代度量。

发布时间: 10/3/2024

查看原文

面向资源受限视频相机陷阱的基于运动的压缩算法

作者: Malika Nisal Ratnayake, Lex Gallon, Adel N. Toosi, Alan Dorin

野外采集的视频可以详细研究动物运动、决策和环境交互的时空方面，包括捕食者-猎物关系和栖息地利用。尽管使用量产硬件进行数据采集成本低廉，但存储、处理和传输开销阻碍了从野外边缘计算设备获取高分辨率视频。因此，如果要在必须克服这些障碍的情况下，在单板计算机上进行监控，高效的压缩算法至关重要。野外动物运动跟踪具有独特的特征，需要使用新颖的视频压缩技术，这些技术在其他情况下可能未被充分探索或不适用。因此，在本文中，我们介绍了一种新的基于运动分析的视频压缩算法，专门为相机陷阱设计。我们使用昆虫传粉者运动跟踪的案例研究，在三个流行的边缘计算平台上实施并测试了该算法。该算法仅识别并存储显示与传粉监控相关的运动的图像区域，在各种测试数据集上平均减少了 87% 的数据大小。我们的实验表明，该算法能够通过手动观察和压缩视频的自动分析来保留昆虫行为分析的关键信息。本文提出的方法提高了低功耗计算机视觉边缘设备在远程现场动物运动监控中的适用性，并提高了行为分析期间回放的效率。我们的新软件 EcoMotionZip 开放获取。

发布时间: 10/3/2024

查看原文

预训练 Transformer 在序列决策中的训练和泛化理解

作者: Hanzhao Wang, Yu Pan, Fupeng Sun, Shang Liu, Kalyan Talluri, Guanting Chen, Xiaocheng Li

本文研究了监督预训练 Transformer 在一类顺序决策问题中的应用。这类问题是强化学习一般公式的一个子集，其中没有转移概率矩阵；虽然看似限制性，但该子集问题涵盖了多臂老虎机、动态定价和报童问题等特殊情况。这种结构允许在预训练阶段使用最优行动/决策，并且这种使用也为预训练 Transformer 的训练和泛化提供了新的见解。首先，我们注意到 Transformer 模型的训练可以被视为一个执行性预测问题，而现有方法和理论在很大程度上忽略了或无法解决分布外问题。我们提出了一种自然解决方案，该解决方案将 Transformer 生成的动作序列纳入训练过程，并在数值和理论上都具有更好的特性。在所考虑的任务中，最优行动的可用性也使我们能够分析预训练 Transformer 作为算法的特性，并解释了它可能缺乏探索的原因以及如何自动解决这个问题。在数值上，我们将预训练 Transformer 相对于结构化算法（如 UCB 和汤普森采样）的优势分为三种情况：（i）它更好地利用了预训练数据中的先验知识；（ii）它可以优雅地处理结构化算法所遭受的错误指定问题；（iii）对于短期时间范围（例如 $T\le50$），它表现得更加贪婪，并且比为渐近最优性设计的结构化算法具有更好的后悔值。

发布时间: 10/3/2024

查看原文

细致审视我们忽略的：控制基于上下文的离线元强化学习中的任务表示偏移

作者: Hai Zhang, Boyuan Zheng, Tianying Ji, Jinhang Liu, Anqi Guo, Junqiao Zhao, Lanqing Li

离线元强化学习 (OMRL) 凭借其利用预收集数据和元学习技术的优势，已成为一种很有前景的避免交互并实现强大泛化性能的方法。以往基于上下文的方案主要依赖于以下直觉：只要上下文编码器遵循最大化任务变量 $M$ 与其潜在表示 $Z$ 之间的互信息 ($I(Z;M)$) 的原则，而策略采用以学习到的任务表示为条件的标准离线强化学习 (RL) 算法，那么上下文编码器和策略之间的交替优化就可以带来性能提升。尽管取得了有希望的结果，但这种直觉的性能提升的理论依据仍未得到充分探索。受模型化 RL 领域中回报差异方案的启发，我们发现之前的优化框架可以与最大化预期回报的通用 RL 目标联系起来，从而解释了性能提升。此外，在仔细审查了这种优化框架后，我们发现它忽略了交替优化过程中任务表示的变化，这削弱了单调性能提升的必要条件，因此可能违反单调性。我们将此问题称为 \underline{任务表示偏移}，并从理论上证明了通过适当的上下文编码器更新可以保证单调性能提升。我们在三个广泛采用的关于最大化不同数据质量下 $I(Z;M)$ 的训练目标上使用了不同的设置来控制任务表示偏移。实证结果表明，控制任务表示偏移确实可以提高性能。

发布时间: 10/3/2024

查看原文

观测尺度定律与语言模型性能的可预测性

作者: Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto

理解语言模型性能如何随规模变化对于基准测试和算法开发至关重要。规模定律是构建这种理解的一种方法，但它需要跨许多不同规模训练模型，这限制了其应用。我们提出了一种替代的、基于观测的方法，它绕过了模型训练，而是从大约 100 个公开可用的模型中构建规模定律。由于不同模型家族的训练计算效率和能力存在很大差异，因此从多个模型家族构建单个规模定律具有挑战性。然而，我们表明这些差异与一个简单的、广义的规模定律一致，其中语言模型性能是低维能力空间的函数，而模型家族仅在其将训练计算转换为能力的效率上有所不同。使用这种方法，我们展示了复杂规模现象的惊人可预测性：我们表明，几个新出现的现象遵循平滑的 S 形行为，并且可以从小型模型中预测；我们表明，GPT-4 等模型的代理性能可以从更简单的非代理基准中精确预测；我们还展示了如何预测随着语言模型能力不断提高，链式思维和自一致性等训练后干预的影响。

发布时间: 10/3/2024

查看原文