arXiv 论文列表

作者: Tianyun Zhong, Chao Liang, Jianwen Jiang, Gaojie Lin, Jiaqi Yang, Zhou Zhao

arXiv:2412.16915v2 宣言类型: replace-cross 摘要：基于扩散的音频驱动谈话语像方法因其实现高保真、生动且富有表现力的结果而最近引起了关注。然而，它们缓慢的推理速度限制了其实用应用。尽管已经开发了各种扩散模型蒸馏技术，但我们发现简单的扩散蒸馏方法并没有取得令人满意的结果。蒸馏模型在开放集输入图像上表现出降低的鲁棒性，并且与教师模型相比，音频和视频之间的相关性降低，这抵消了扩散模型的优势。为了解决这个问题，我们提出了FADA（快速扩散化身合成，结合混合监督多-CFG蒸馏）。我们首先设计了一种混合监督损失，充分利用不同质量的数据，增强模型的整体能力和鲁棒性。此外，我们提出了一种可学习标记的多-CFG蒸馏，以利用音频与参考图像条件之间的相关性，通过可接受的质量降级来减少多-CFG引起的三次推理运行。通过多个数据集的广泛实验表明，FADA生成的视频在视觉表现上与基于扩散模型的方法相当，同时实现了4.17至12.5倍的NFE加速。演示可以在我们网页http://fadavatar.github.io上找到。

发布时间: 4/7/2025

查看原文

通过增强语义指导学习视觉composition

作者: Austin Stone, Hagen Soltau, Robert Geirhos, Xi Yi, Ye Xia, Bingyi Cao, Kaifeng Chen, Abhijit Ogale, Jonathon Shlens

arXiv:2412.15396v2 宣告类型: replace-cross 摘要：视觉想象并不是由孤立的对象组成的，而是反映了多种流动概念的组合。虽然在视觉表示学习方面取得了巨大的进展，但这些进展主要集中在构建更好的表示方法，而这些表示方法忽略了这些对象是如何相互作用的。这种局限性可以在通过描述或对比学习学习到的表示中观察到——学习到的模型基本上将图像视为一组词汇。许多工作尝试通过开发专门的学习架构来直接解决组成学习中的不足。在本文中，我们专注于简单且可扩展的方法。具体而言，我们证明通过大幅提高弱标签数据，即描述，可以极大地提高标准对比学习方法的性能。此前的CLIP模型在测试组成学习方面具有挑战性的任务时，其表现接近偶然率。然而，我们简单的方法显著提升了CLIP的表现，并超越了所有专门设计的架构。此外，我们在从DOCCI派生出的相对新的描述基准测试上展示了我们的结果。通过一系列消融实验，我们证明在增强数据下训练的标准CLIP模型可能在图像检索任务上表现出色。

发布时间: 4/7/2025

查看原文

支持低资源语言检索：为乌尔都语 MS MARCO 建立基准

作者: Umer Butt, Stalin Varanasi, G\"unter Neumann

arXiv:2412.12997v3 公布类型: replace-cross 摘要: 随着信息检索（IR）领域越来越认识到包容性的意义，满足低资源语言的需求仍是一项显著的挑战。本文介绍了首个大规模乌尔都语IR数据集，通过机器翻译将MS MARCO数据集翻译而来。我们通过零样本学习为乌尔都语IR设置了基准结果，并随后应用mMARCO多语言IR方法论对这一新翻译数据集进行了处理。我们的发现表明，微调后的模型（Urdu-mT5-mMARCO）在Mean Reciprocal Rank（MRR@10）上的表现达到了0.247，Recall@10达到了0.439，这相对于零样本结果取得了显著提高，展示了扩展乌尔都语人群信息检索接入的可能性。通过对低资源语言使用者的接入差距进行跨越，不仅推进了多语言信息检索研究，还强调了包容性IR技术的伦理和社会重要性。本文提供了关于改进语言表示所面临的挑战和解决方案的重要见解，并为进一步研究奠定了基础，尤其是在南亚语言方面，可以受益于本研究中使用的方法的适应性。

发布时间: 4/7/2025

查看原文

撤销策略评估：语言模型能否无状态地 strategize 以颠覆控制协议？

作者: Alex Mallen, Charlie Griffin, Misha Wagner, Alessandro Abate, Buck Shlegeris

arXiv:2412.12480v4 宣布类型: 替换-交叉摘要：AI控制协议是一种旨在有用地部署AI系统的计划，旨在防止AI故意造成某些不可接受的结果。本文探讨了AI系统在不共享上下文间内存（即，无状态操作）的情况下，如何生成和执行其自身的策略以规避控制协议。为此，AI系统可能需要在每个上下文中可靠地生成最优计划，以校准的概率执行行动，并在不通信的情况下与其他自身的实例协调计划。我们开发了Subversion Strategy Eval套件，该套件包含八个环境，涵盖了各种协议和策略能力，并提供了六组功能，以帮助隔离各个能力。我们在Inspection-AI中实现了评估并开源了该套件。我们评估了Claude 3.5模型，包括仅限助益版本，以及OpenAI推理模型。这些模型在无状态规避控制协议方面未表现出显著的策略能力。然而，为模型提供额外的功能，例如在各个上下文间共享计划，可以显著提高性能。我们希望我们的评估能够作为模型具备规避控制协议能力的领先指标，并且也会放松AI控制评估中在最坏情况下的全面策略能力假设。

发布时间: 4/7/2025

查看原文

AI 红队演练是一项社会技术挑战：关于价值观、劳动和危害AI红队演练是一项社会技术挑战：关于价值观、劳动和危害

作者: Tarleton Gillespie, Ryland Shaw, Mary L. Gray, Jina Suh

arXiv:2412.09751v2 宣布类型: replace-cross 摘要：随着生成人工智能技术在越来越多的实际应用场景中得到应用，对其性能和安全性的测试显得尤为重要。“红队测试”已成为测试AI模型的主要方法——受到AI公司的优先考虑，并被纳入AI政策和法规之中。红队成员充当对手，对AI系统进行探测，以测试其安全机制并发现漏洞。然而，我们对这项工作及其影响知之甚少。本文呼吁计算机科学家和社会科学家之间的合作，研究围绕人工智能技术的社技系统，包括红队测试的工作，以避免重蹈近期过去的覆辙。我们强调理解红队测试背后的价值观和假设、参与的劳动安排以及对红队成员的心理影响的重要性，并从内容审核工作的经验教训中汲取启示。

发布时间: 4/7/2025

查看原文

FM2DS: 少量样本多模态多跳数据合成与知识蒸馏用于问答

作者: Amirhossein Abaskohi, Spandana Gella, Giuseppe Carenini, Issam H. Laradji

arXiv:2412.07030v4 通知类型: replace-cross 摘要: 多模态多跳问答（MMQA）要求在来自多个源的信息中进行图形和文本的推理。尽管视觉问答有了进展，但这一多跳设置仍因高质量数据集的缺乏而未得到充分探索。现有方法专注于单跳、单模态或短文本，限制了如解释包含长且多模态内容的教育文档等真实世界应用。为填补这一空白，我们引入了FM2DS，这是首个用于MMQA的高质量数据集框架。我们的方法包括一个五阶段流水线，涉及从Wikipedia获取相关多模态文档，合成高级问题和答案，并通过严格的验证标准确保数据质量。我们通过在合成数据集上训练模型并在两个基准测试（MultimodalQA和WebQA）上进行测试，来评估我们的方法。结果显示，在相同样本量下，使用我们合成数据训练的模型在平均精确匹配（EM）得分为1.9时比使用人类收集的数据训练的模型表现更佳。此外，我们引入了由FM2DS合成并由人类注释员精炼的M2QA-Bench数据集，其中包括1000个样本，这是首个用于长文档上MMQA的基准测试。我们相信我们的数据合成方法将为训练和评估MMQA模型提供坚实的基础。

发布时间: 4/7/2025

查看原文

AdaCM²：关于理解极长时序视频的自适应跨模态内存减少方法

作者: Yuanbin Man, Ying Huang, Chengming Zhang, Bingzhe Li, Wei Niu, Miao Yin

arXiv:2411.12593v3 宣布类型: 替换-交叉摘要：大型语言模型（LLMs）的进步通过将LLMs与视觉模型结合，促进了视频理解任务的改进。然而，目前大多数基于LLM的模型（例如，VideoLLaMA、VideoChat）仅限于处理短时长视频。最近尝试通过提取和压缩视觉特征至固定的记忆大小来理解长期视频。尽管这些方法仅利用视觉模态来合并视频标记并忽略了视觉和文本查询之间的相关性，导致在复杂问答任务中难以有效处理。为了解决长视频和复杂提示的挑战，我们提出了AdaCM$^2$，这是首次在视频流中以自回归方式引入自适应跨模态记忆减量方法进行视频-文本对齐。我们在视频字幕、视频问答和视频分类等多种视频理解任务上的广泛实验表明，AdaCM$^2$在多个数据集上达到了最先进的性能，同时显著减少了内存使用。值得注意的是，该方法在LVU数据集上实现多个任务4.5%的改进，并将GPU内存消耗降低高达65%。

发布时间: 4/7/2025

查看原文

基于运动的视频推理：像素级的理解与感知

作者: Andong Deng, Tongjia Chen, Shoubin Yu, Taojiannan Yang, Lincoln Spencer, Yapeng Tian, Ajmal Saeed Mian, Mohit Bansal, Chen Chen

arXiv:2411.09921v2 宣布类型: replace-cross 摘要: 在本文中，我们介绍了运动驱动视频推理(Motion-Grounded Video Reasoning)这一新的运动理解任务，要求根据输入问题生成视觉答案（视频分割掩码），因此需要隐式的时空推理和定位。该任务将现有的专注于明确动作/运动定位的时空定位工作扩展到了通过问题启用的隐式推理的更通用格式。为了促进新任务的发展，我们收集了一个名为 GROUNDMORE 的大规模数据集，其中包括 1,715 个视频片段以及针对基准测试深度和全面的运动推理能力故意设计的 249K 个物体掩码，这些掩码附带了 4 种问题类型（因果型、序列型、假设型和描述型）。GROUNDMORE 独特之处在于要求模型生成视觉答案，从而提供比纯文本更具体且可视觉解释的响应。它在时空定位和推理方面评估模型，促进解决与运动相关的视频推理、时间感知和像素级理解相关的复杂挑战。此外，我们还引入了一个名为运动驱动视频推理助手 (MORA) 的新基准模型。MORA 结合了多模态推理能力（来自多模态LLM）、像素级感知能力（来自定位模型 SAM）以及轻量级时间感知头。MORA 在 GROUNDMORE 上实现了可观的性能，相较于现有最佳的视觉定位基准模型平均高出 21.5%。我们希望通过这一新颖且具有挑战性的任务为通过视频推理分割实现稳健且通用的运动理解奠定基础。

发布时间: 4/7/2025

查看原文

从多样化行为中学习：基于单步存档探索的 Wasserstein 质量多样 imitation 学习

作者: Xingrui Yu, Zhenglin Wan, David Mark Bossens, Yueming Lyu, Qing Guo, Ivor W. Tsang

arXiv:2411.06965v2 公告类型: 替换-交叉摘要：从有限的演示中学习多样且高性能的行为是一项艰巨的挑战。传统的模仿学习方法通常无法完成这一任务，因为大多数方法都是为了学习一种特定的行为而设计的，即使有多个演示也是如此。因此，需要新的技术，即质量多样性模仿学习技术，以弥合质量多样性优化方法和模仿学习方法之间的差距，从而解决上述挑战。本文引入了基于Wasserstein自动编码器（WAE）的潜在对抗训练的质量多样性模仿学习（WQDIL），该方法具有两方面改进：1）通过基于Wasserstein自动编码器（WAE）的潜在对抗训练提高质量多样性设置中模仿学习的稳定性；2）使用条件奖励函数和单步存档探索奖励项来缓解行为过拟合问题。实验中，我们的方法显著优于最先进的模仿学习方法，在来自MuJoCo环境派生的具有挑战性的连续控制任务上达到或超越专家级别的质量多样性性能。

发布时间: 4/7/2025

查看原文

revisiting MAE 预训练在 3D 医学图像分割中的应用

作者: Tassilo Wald, Constantin Ulrich, Stanislav Lukyanenko, Andrei Goncharov, Alberto Paderno, Maximilian Miller, Leander Maerkisch, Paul F. J\"ager, Klaus Maier-Hein

arXiv:2410.23132v3 公告类型: replace-cross 摘要: 自监督学习（SSL）为释放大量未充分利用的临床数据集在各种下游应用中的潜力提供了激动人心的机会，这些应用受制于标注数据的稀缺性。虽然SSL已经在自然语言处理和计算机视觉等领域引发了革命，但在三维医学图像计算中的应用受限于三个关键问题：小型预训练数据集、不适用于三维医学图像分析的架构以及不足的评估实践。在本文中，我们通过i）利用包含39,000个3D脑部MRI卷的大型数据集，ii）在最先进的nnU-Net框架内使用残差编码U-Net架构，iii）采用包含5个开发和8个测试脑部MRI分割数据集的稳健开发框架，以性能驱动的设计决策优化了简单的掩码自编码器（MAEs）的概念，来解决这些问题。最终得到的模型不仅超越了之前的SSL方法，还比强大的nnU-Netbaseline平均高出约3个Dice分数，从而设立了新的最先进的标准。我们的代码和模型在此处提供。

发布时间: 4/7/2025

查看原文