arXiv 论文列表

作者: Xinliang Frederick Zhang, Nick Beauchamp, Lu Wang

时间和时间关系推理是人类认知的一个重要方面，对于感知世界和驾驭我们的经验至关重要。尽管大型语言模型 (LLM) 在许多推理任务中表现出令人印象深刻的性能，但时间推理由于其固有的复杂性而仍然具有挑战性。在这项工作中，我们首先研究了时间推理的一个基本任务——时间图生成，以揭示 LLM 的固有、全局推理能力。我们表明，即使对于最强大的 LLM（如 GPT-3.5/4），这项任务也带来了巨大的挑战。我们还注意到，小型模型（<10B）与 LLM 相比落后 50%，存在显著的性能差距。接下来，我们研究如何在预算约束下缩小这一差距，例如不使用模型微调。我们提出了一种针对时间推理量身定制的新提示技术，即思想叙述 (NoT)，该技术首先将事件集转换为 Python 类，然后提示小型模型生成时间上接地的叙述，指导最终的时间图生成。广泛的实验展示了 NoT 在提高各种指标方面的有效性。值得注意的是，NoT 在 Schema-11 评估集上实现了最高的 F1 分数，同时获得了与 GPT-3.5 相当的总体 F1 分数。NoT 还实现了最佳的结构相似性，甚至超过了 GPT-3.5/4。我们的代码可在 https://github.com/launchnlp/NoT 获取。

发布时间: 10/10/2024

查看原文

基于指令微调的神经机器翻译模型

作者: Vikas Raunak, Roman Grundkiewicz, Marcin Junczys-Dowmunt

在这项工作中，我们介绍了神经机器翻译 (NMT) 模型的指令微调，它将大型语言模型 (LLM) 的指令遵循能力提炼到规模小得多的 NMT 模型中。我们针对 NMT 模型的指令微调方案能够针对有限但不同的翻译特定任务定制翻译。我们表明，NMT 模型能够同时遵循多个指令，并展示了指令零样本组合的能力。我们还表明，通过指令微调，传统上不同的任务，例如形式控制机器翻译、多领域适应以及多模态翻译，可以通过单个指令微调的 NMT 模型联合解决，其性能水平与 GPT-3.5-Turbo 等 LLM 相当。据我们所知，我们的工作是首批展示传统 NMT 模型的指令遵循能力的工作之一，这使得能够更快、更便宜、更高效地提供定制翻译。

发布时间: 10/10/2024

查看原文

带预约的电动汽车充电站在线动态定价

作者: Jan Mrkos, Anton\'in Komenda, David Fiedler, Ji\v{r}\'i Vok\v{r}\'inek

电动汽车（EV）的普及以及可再生能源的兴起将对电网产生重大影响。与传统燃料来源不同，电动汽车的电力受电网容量、价格波动和较长的充电时间的限制，需要新的定价解决方案来管理供需。本文提出了一种在线动态定价模型，用于预订电动汽车充电服务，包括预订、停车和充电，作为一个捆绑服务整体定价。我们的方法侧重于单个充电站运营商，采用随机需求模型和基于预期需求的在线动态定价。该模型使用马尔可夫决策过程 (MDP) 公式来优化充电会话请求的顺序定价决策。一项关键贡献是新颖的定义和量化了泊松过程离散化用于 MDP 时引入的离散化误差。该模型的可行性通过基于蒙特卡洛树搜索的启发式解决方案方法得到证明，为实际应用提供了一条可行的途径。

发布时间: 10/10/2024

查看原文

服装更换行人重识别中的特征解相关性研究

作者: Hongjun Wang, Jiyuan Chen, Renhe Jiang, Xuan Song, Yinqiang Zheng

衣物更换行人重识别 (CC-ReID) 是计算机视觉领域的一项重大挑战。一种普遍的做法是提示模型关注因果属性，例如面部特征和发型，而不是诸如服装外观之类的混淆因素。传统实现方法涉及整合多模态数据或使用手动标注的服装标签，这往往会使模型复杂化并需要大量的人工努力。在本研究中，我们证明了仅仅在训练期间降低特征相关性就可以显著提升基线模型的性能。我们从理论上阐明了这种效应，并提出了一种基于密度比估计的新型正则化技术。该技术旨在最小化衣物更换 ReID 基线模型训练过程中的特征相关性。我们的方法与模型无关，无需额外数据或标签即可提供广泛的增强。我们在流行的 CC-ReID 数据集上通过全面实验验证了我们的方法，表明它在提高基线模型的泛化能力方面非常有效。

发布时间: 10/10/2024

查看原文

基于等式饱和和蒙特卡洛树搜索的张量计算图优化

作者: Jakob Hartmann, Guoliang He, Eiko Yoneki

深度神经网络在现实世界中的有效性往往取决于其延迟，因此需要优化技术来减少模型的推理时间，同时保持其性能。一种流行的方法是通过替换单个子图，将输入计算图依次重写为等效但更快的图。这种方法导致了所谓的相位排序问题，其中应用一个重写规则可能会消除随后应用更佳规则的可能性。最近的研究表明，来自编译器优化的相等饱和技术可以通过首先构建一个中间表示（IR）来缓解这个问题，该表示在第二步中提取最佳解决方案之前有效地存储输入程序的多个优化版本。然而，在实践中，内存约束会阻止 IR 捕获所有优化版本，从而在构建阶段重新引入相位排序问题。在本文中，我们提出了一种张量图重写方法，该方法使用蒙特卡罗树搜索来构建更优的 IR，方法是识别最有希望的重写规则。我们还介绍了一种新颖的提取算法，该算法可以提供 IR 中表示的张量程序的快速准确的运行时估计。与现有方法相比，我们的方法将神经网络的推理加速提高了高达 11%。

发布时间: 10/10/2024

查看原文

基于三维扩散先验的稀疏视图通用物体级映射

作者: Ziwei Liao, Binbin Xu, Steven L. Waslander

基于对象的映射从多视角传感器观测中构建场景中对象的3D地图，包含详细的形状和姿态。传统的基于对象映射的方法由于部分遮挡和传感器噪声，难以构建完整的形状并估计准确的姿态。它们需要密集的观测来覆盖所有对象，这在机器人轨迹中难以实现。最近的研究引入了生成形状先验，用于从稀疏视角进行基于对象的映射，但仅限于单类对象。在这项工作中，我们提出了一种通用对象级映射系统GOM，它利用3D扩散模型作为形状先验，支持多类别，并为场景中的所有对象输出用于纹理和几何的NeRFs。GOM包含一个有效的公式，用于在不微调的情况下，利用来自传感器测量的额外非线性约束来引导预训练的扩散模型。我们还开发了一种概率优化公式，用于融合多视角传感器观测和扩散先验，以进行联合3D对象姿态和形状估计。我们的GOM系统展示了从稀疏视角进行的多类别映射的优越性能，并在真实世界基准测试中取得了比最先进方法更准确的映射结果。我们将发布我们的代码：https://github.com/TRAILab/GeneralObjectMapping。

发布时间: 10/10/2024

查看原文

残差柯尔莫哥洛夫-阿诺德网络用于增强深度学习

作者: Ray Congrui Yu, Sherry Wu, Jiang Gui

尽管卷积神经网络 (CNN) 在许多计算机视觉任务中表现出色，但它们在网络更深层中有效地捕获长程、复杂的非线性依赖关系时，有时会遇到困难。为了解决这一限制，我们引入了残差 KAN，它将 Kolmogorov-Arnold 网络 (KAN) 作为残差组件集成到 CNN 框架中。我们的方法使用切比雪夫多项式作为 KAN 卷积的基础，从而能够在保持计算效率的同时，实现更具表现力和适应性的特征表示。当将提出的 RKAN 块集成到 ResNet 和 DenseNet 等成熟架构中时，它们在各种知名基准测试中比基线模型提供了持续的改进。我们的结果证明了 RKAN 在增强深度 CNN 在视觉数据中的能力方面的潜力。

发布时间: 10/10/2024

查看原文

神经网络解码：通过因果解释和推理进行目标性和鲁棒性分析

作者: Alec F. Diallo, Vaishak Belle, Paul Patras

尽管深度神经网络（DNN）取得了成功并被广泛采用，但其不透明的本质仍然阻碍了人们对其的信任，尤其是在关键应用中。现有的可解释性解决方案往往会产生不一致或过于简化的解释，或者需要对模型进行改变以损害性能。在这项工作中，我们介绍了 TRACER，这是一种基于因果推理理论的新方法，旨在估计 DNN 决策背后的因果动态，而不会改变其架构或损害其性能。我们的方法系统地干预输入特征，以观察特定变化如何通过网络传播，影响内部激活和最终输出。基于此分析，我们确定了各个特征的重要性，并通过将功能相似的层分组到具有凝聚力的因果节点中，构建了一个高级因果图，从而提供了一个结构化且可解释的视图，说明网络的不同部分如何影响决策。TRACER 通过生成反事实进一步增强了可解释性，这些反事实揭示了可能的模型偏差，并为错误分类提供了对比解释。通过对不同数据集进行综合评估，我们证明了 TRACER 比现有方法更有效，并展示了其在创建高度压缩但准确的模型方面的潜力，说明了其在理解和优化 DNN 方面的双重多功能性。

发布时间: 10/10/2024

查看原文

使用可控再生从干净噪声中去除图像水印

作者: Yepeng Liu, Yiren Song, Hai Ci, Yu Zhang, Haofan Wang, Mike Zheng Shou, Yuheng Bu

图像水印技术为断言所有权、阻止滥用和追踪内容来源提供了一种有效的方式，这在大型生成模型时代变得越来越重要。水印技术的一个关键属性是对各种操作的鲁棒性。本文提出了一种水印去除方法，能够有效地消除最先进的水印技术。我们的主要见解是，利用从水印图像中提取的语义和空间特征，通过可控扩散模型从干净的高斯噪声开始重新生成水印图像。语义控制适配器和空间控制网络专门训练用于控制去噪过程，以确保图像质量并增强清理后的图像与原始水印图像之间的一致性。为了在水印去除性能和图像一致性之间实现平滑的权衡，我们进一步提出了一种可调节和可控的再生方案。该方案在水印图像的潜在表示中添加了不同数量的噪声步骤，然后从这个噪声潜在表示开始进行受控的去噪过程。随着噪声步骤数量的增加，潜在表示逐渐接近干净的高斯噪声，促进了所需的权衡。我们将我们的水印去除方法应用于各种水印技术，结果表明，与现有的再生方法相比，我们的方法提供了更好的视觉一致性/质量和更高的水印去除性能。

发布时间: 10/10/2024

查看原文

群聚效应在增强中——并非良策！一种稳健的多阶段深度伪造检测方法

作者: Monu, Rohan Raju Dhanakshirur

深度伪造技术的快速发展引发了人们对数字媒体完整性的重大担忧。检测深度伪造对于保障数字媒体至关重要。然而，大多数标准图像分类器无法区分假脸和真脸。我们的分析表明，这种失败是由于模型无法明确地关注深度伪造中常见的伪造痕迹。我们提出了一种基于 GenConViT 模型的增强架构，该架构结合了加权损失和更新增强技术，并包含遮蔽眼睛预训练。该模型在 Celeb-DF v2 数据集上将 F1 分数提高了 1.71%，准确率提高了 4.34%。我们模型的源代码可在 https://github.com/Monu-Khicher-1/multi-stage-learning 获取。

发布时间: 10/10/2024

查看原文