arXiv 论文列表

作者: Dvir Samuel, Rami Ben-Ari, Matan Levy, Nir Darshan, Gal Chechik

个性化检索和分割旨在根据输入图像和参考实例的简短描述，在数据集中定位特定实例。虽然监督方法有效，但它们需要大量的标记数据进行训练。最近，自监督基础模型被引入这些任务，显示出与监督方法相当的结果。然而，这些模型存在一个明显的缺陷：当同一个类别中的其他实例出现时，它们难以定位所需的实例。在本文中，我们探索了文本到图像扩散模型用于这些任务。具体来说，我们提出了一种名为 PDM 的新方法，用于个性化特征扩散匹配，该方法利用预训练的文本到图像模型的中间特征来实现个性化任务，无需任何额外的训练。PDM 在流行的检索和分割基准测试中表现出优异的性能，甚至超过了监督方法。我们还指出了当前实例和分割数据集中的显著缺陷，并为这些任务提出了新的基准测试。

发布时间: 10/1/2024

查看原文

TransVIP：保留语音和等时性的语音到语音翻译系统

作者: Chenyang Le, Yao Qian, Dongmei Wang, Long Zhou, Shujie Liu, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Sheng Zhao, Michael Zeng

近年来，直接将语音从一种语言翻译成另一种语言，即端到端语音到语音翻译，在研究领域引起了越来越多的关注和趋势。然而，大多数端到端模型难以超越级联模型的性能，即通过串联语音识别、机器翻译和文本到语音模型的管道框架。主要挑战来自于直接翻译任务固有的复杂性和数据稀缺性。在本研究中，我们提出了一种新的模型框架TransVIP，它以级联的方式利用了不同的数据集，但通过联合概率促进了端到端推理。此外，我们提出了两个独立的编码器，以在翻译过程中保留源语音中的说话人语音特征和等时性，使其高度适用于视频配音等场景。我们在法语-英语语言对上的实验表明，我们的模型优于现有的最先进的语音到语音翻译模型。

发布时间: 10/1/2024

查看原文

DefSent+: 通过将定义句投影到无限字典项的准各向同性或各向同性向量空间来改进语言模型的句子嵌入

作者: Xiaodong Liu

本文对之前名为 DefSent 的会议论文进行了重大改进。先前研究试图通过将定义句子投影到词典条目向量空间来改进语言模型的句子嵌入。我们发现，由于使用语言模型的词嵌入来表示词典条目这一方法的局限性，这种方法并没有得到充分的探索。这导致了两个障碍。首先，词典条目受到单字词表的限制，因此无法得到充分利用。其次，语言模型的语义表示已知是各向异性的，但 DefSent 的预处理词嵌入不允许，因为它的权重在训练期间被冻结并与预测层绑定。在本文中，我们提出了一种新方法来逐步构建不受这些限制影响的条目嵌入。因此，定义句子可以被投影到一个无限词典条目的准各向同性或各向同性向量空间中，从而获得质量明显更高的句子嵌入。我们将我们的方法简称为 DefSent+（DefSent 的增强版），它具有以下优势：1) 与 DefSent 相比，在衡量句子相似性的任务性能方面得到了显著提升；2) 当 DefSent+ 用于进一步训练数据增强模型，如 SIMCSE、SNCSE 和 SynCSE 时，可以在不使用手动标注数据集的情况下，在衡量句子相似性的方法中获得最先进的性能；3) DefSent+ 在 NLP 下游任务的基于特征的迁移中也具有竞争力。

发布时间: 10/1/2024

查看原文

具有形状约束的价格优化中可解释的价格边界估计

作者: Shunnosuke Ikeda, Naoki Nishimura, Shunji Umetani

本研究旨在解决价格优化场景下可解释的价格界限估计问题。近年来，价格优化方法已成为最大化收入和利润的必不可少的手段。然而，将这些方法有效地应用于实际的价格运营仍然是一个重大挑战。对于负责制定价格的运营商而言，利用既可解释又可接受的合理价格界限至关重要。尽管有此必要性，但大多数研究都假设价格界限是给定的常数，很少有人探索这些界限的合理确定方法。因此，我们提出了一种全面的框架来确定价格界限，包括这些界限的估计和调整。具体而言，我们首先使用基于历史定价数据的三种不同方法来估计价格界限。然后，我们通过求解一个包含形状约束的优化问题来调整估计的价格界限。这种方法允许在适合实际应用的实际合理价格界限下实施价格优化。我们通过使用实际服务的历史定价数据进行的数值实验报告了我们提出的方法的有效性。

发布时间: 10/1/2024

查看原文

细致审视我们忽略的部分：控制基于上下文的离线元强化学习中的任务表示偏移

作者: Hai Zhang, Boyuan Zheng, Tianying Ji, Jinhang Liu, Anqi Guo, Junqiao Zhao, Lanqing Li

离线元强化学习 (OMRL) 作为一种很有前景的方法，通过利用预先收集的数据和元学习技术来实现交互避免和强大的泛化性能。之前的基于上下文的方案主要依赖于这样的直觉：只要上下文编码器遵循最大化任务和任务表示之间互信息的原则 ($I(Z;M)$)，而策略采用标准的离线强化学习 (RL) 算法，以学习到的任务表示为条件，那么在上下文编码器和策略之间交替优化就可以带来性能提升。尽管取得了可喜的成果，但这种直觉的性能提升的理论依据尚未得到充分探索。受模型化 RL 领域中回报差异方案的启发，我们发现之前的优化框架可以与最大化预期回报的通用 RL 目标联系起来，从而为性能提升提供了一个可行的解释。此外，在仔细审查了这种优化框架之后，我们发现它忽略了交替优化过程中任务表示变化带来的影响，这可能会导致性能提升崩溃。我们将这个问题命名为 \underline{任务表示偏移}，并从理论上证明了通过适当的上下文编码器更新可以保证单调的性能提升。我们针对不同的数据质量，在三个广泛采用的关于最大化 $I(Z;M)$ 的训练目标上，设定了不同的方法来控制任务表示偏移。实验结果表明，控制任务表示偏移确实可以提高性能。我们的工作为 OMRL 开辟了一条新的途径，从而更好地理解性能和任务表示之间的关系。

发布时间: 10/1/2024

查看原文

用于端到端视觉避障的视觉Transformer

作者: Anish Bhattacharya, Nishanth Rao, Dhruv Parikh, Pratik Kunapuli, Yuwei Wu, Yuezhan Tao, Nikolai Matni, Vijay Kumar

我们展示了一种基于注意力的端到端方法在密集、杂乱的环境中进行高速视觉引导的四旋翼避障的能力，并将其与各种最先进的学习架构进行了比较。四旋翼无人机 (UAV) 在高速飞行时具有极强的机动性；然而，随着飞行速度的提高，传统的基于模型的导航方法（通过独立的感知、地图构建、规划和控制模块）由于传感器噪声增加、误差累积和处理延迟增加而失效。因此，基于学习的端到端视觉到控制网络已显示出在这些快速机器人穿越杂乱环境的在线控制方面具有巨大潜力。我们在高保真模拟中训练并比较了卷积、U-Net 和循环架构与视觉转换器 (ViT) 模型，观察到 ViT 模型在四旋翼速度增加以及泛化到未见环境时比其他模型更有效，而添加循环进一步提高了性能，同时降低了所有测试飞行速度下的四旋翼能量消耗。我们在模拟和硬件中评估了高达 7m/s 的速度下的性能。据我们所知，这是第一个将视觉转换器用于端到端视觉引导的四旋翼控制的工作。

发布时间: 10/1/2024

查看原文

MiniMaxAD：一种用于特征丰富异常检测的轻量级自动编码器

作者: Fengjie Wang, Chengming Liu, Lei Shi, Pang Haibo

以往的无监督异常检测 (UAD) 方法在处理训练集中的广泛多样性方面往往存在困难，尤其是在训练集包含风格多样且特征丰富的样本的情况下，我们将这种情况归类为特征丰富异常检测数据集 (FRADs)。这种挑战在多视图和多类别场景等应用中尤为明显。为了解决这一挑战，我们开发了 MiniMaxAD，这是一种轻量级自动编码器，旨在有效地压缩和记忆来自正常图像的丰富信息。我们的模型采用了一种增强特征多样性的技术，从而提高了网络的有效容量。它还利用大核卷积来提取高度抽象的模式，从而有助于高效且紧凑的特征嵌入。此外，我们还引入了一种自适应收缩硬挖掘损失 (ADCLoss)，专门针对 FRADs。在我们的方法中，任何数据集都可以在特征丰富异常检测框架下统一，其优势远远超过劣势。我们的方法在多个具有挑战性的基准测试中取得了最先进的性能。

发布时间: 10/1/2024

查看原文

Trio-ViT：面向无Softmax高效视觉Transformer的训练后量化与加速

作者: Huihong Shi, Haikuo Shao, Wendong Mao, Zhongfeng Wang

受自然语言处理 (NLP) 领域中 Transformer 的巨大成功启发，视觉 Transformer (ViT) 迅速发展并在各种计算机视觉任务中取得了显著的成果。然而，其巨大的模型尺寸和密集的计算量阻碍了 ViT 在嵌入式设备上的部署，因此需要有效的模型压缩方法，例如量化。不幸的是，由于存在对硬件不友好和对量化敏感的非线性操作，特别是 {Softmax}，完全量化 ViT 中的所有操作并非易事，会导致显著的精度下降或不可忽略的硬件成本。为了应对与 *标准 ViT* 相关的挑战，我们将注意力集中在 *高效 ViT* 的量化和加速上，它不仅消除了麻烦的 Softmax，而且将线性注意力与低计算复杂度相结合，并据此提出了 Trio-ViT。具体来说，在算法层面上，我们开发了一个 {定制的训练后量化引擎}，充分考虑了无 Softmax 高效 ViT 的独特激活分布，旨在提高量化精度。此外，在硬件层面上，我们构建了一个专门针对高效 ViT 的卷积-Transformer 混合架构的加速器，从而提高了硬件效率。大量实验结果一致地证明了我们 Trio-ViT 框架的有效性。{特别是，在与最先进的 ViT 加速器相比的情况下，我们可以在可比精度下获得高达 $\uparrow$$\mathbf{3.6}\times$, $\uparrow$$\mathbf{5.0}\times$, 和 $\uparrow$$\mathbf{7.3}\times$ FPS 的提升，以及 $\uparrow$$\mathbf{6.0}\times$, $\uparrow$$\mathbf{1.5}\times$, 和 $\uparrow$$\mathbf{2.1}\times$ DSP 效率的提升。} 代码可在 \url{https://github.com/shihuihong214/Trio-ViT} 获取。

发布时间: 10/1/2024

查看原文

AnyPattern：面向上下文图像复制检测

作者: Wenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang

本文探讨了图像复制检测（ICD）的上下文学习，即提示一个 ICD 模型识别具有新篡改模式的复制图像，而无需额外的训练。提示（或上下文）来自一小部分反映新模式的图像-复制对，并在推理时使用。这种上下文 ICD 具有良好的现实价值，因为它不需要微调，从而有利于快速应对未见模式的出现。为了适应“已见→未见”的泛化场景，我们构建了第一个大型模式数据集 AnyPattern，该数据集在所有现有数据集中的篡改模式数量最多（训练时 90 种，测试时 10 种）。我们使用流行的 ICD 方法对 AnyPattern 进行基准测试，并发现现有方法几乎无法泛化到新模式。我们进一步提出了一种简单的上下文 ICD 方法，名为 ImageStacker。ImageStacker 学习选择最具代表性的图像-复制对，并将它们作为模式提示以堆叠的方式（而不是流行的串联方式）使用。实验结果表明：（1）使用我们的大型数据集进行训练，极大地促进了模式泛化（+26.66% $\mu AP$)；（2）提出的 ImageStacker 促进了有效的上下文 ICD（又增加了 +16.75% $\mu AP$)；（3）AnyPattern 使上下文 ICD 成为可能，即如果没有这样的大型数据集，即使使用我们的 ImageStacker，上下文学习也不会出现。除了 ICD 任务外，我们还展示了 AnyPattern 如何使艺术家受益，即在 AnyPattern 上训练的模式检索方法可以推广到识别文本到图像模型的风格模仿。该项目在 https://anypattern.github.io 公开提供。

发布时间: 10/1/2024

查看原文

多轮指令对话中归纳-演绎策略的重用

作者: Jiao Ou, Jiayu Wu, Che Liu, Fuzheng Zhang, Di Zhang, Kun Gai

为了使大型语言模型（LLM）符合人类预期，需要高质量的指令对话，这通常需要多样化且深入的指令。现有的方法利用两个LLM进行自动收集：一个模拟用户提出指令，另一个充当系统代理进行响应。然而，这些用户模拟器难以在没有明确指导的情况下模拟对话如何提出不同指令的规则，导致指令过于笼统。本文提出明确捕捉复杂规则来帮助用户模拟器提出多样化且深入的指令。具体来说，我们首先从各种真实的指令对话中归纳出高层次的指令策略，将其作为规则。之后，将不同的策略推演应用于新给定的对话场景，以提出各种指令。实验结果表明，我们的方法可以生成多样化且深入的指令。构建的多轮指令对话在后续的聊天模型上优于竞争基线。

发布时间: 10/1/2024

查看原文