arXiv 论文列表

作者: Xi Ding, Lei Wang

arXiv:2412.13845v2 通知类型: 替换-交叉摘要：大规模语言模型（LLMs）已经革新了基于视频的计算机视觉应用，包括动作识别、异常检测和视频摘要。视频本身带来了独特挑战，结合了空间复杂性和静态图像或文本数据中缺失的时间动态性。目前使用LLMs进行视频理解的方法往往依赖于预训练的视频编码器提取时空特征，并依赖于文本编码器捕获语义意义。这些表示在LLM框架内进行整合，使得跨不同视频任务进行多模态推理成为可能。然而，一个关键问题仍然存在：LLMs能否真正理解时间的概念，它们在视频中如何有效地推理解时间关系？本研究批判性地探讨了LLMs在视频处理中的作用，具体关注其时间推理能力。我们识别了LLMs与预训练编码器之间交互的关键限制，揭示了它们在建模长期依赖性和抽象因果关系等时间概念方面的局限性。此外，我们分析了现有视频数据集带来的挑战，包括偏差、缺乏时间注释以及特定领域限制，这些都会限制LLMs的时间理解能力。为了解决这些限制，我们探讨了令人期待的未来方向，包括LLMs和编码器的协同进化、带有显式时间标签的丰富数据集的开发以及将空间、时间和语义推理结合的创新架构。通过解决这些挑战，我们旨在促进LLMs的时间理解，从而充分发挥其在视频分析以及其他方面的潜力。我们论文的GitHub仓库可以在https://github.com/Darcyddx/Video-LLM找到。

发布时间: 2/18/2025

查看原文

CoMT: 一种新的多模态链式思维基准用于大型视觉语言模型

作者: Zihui Cheng, Qiguang Chen, Jin Zhang, Hao Fei, Xiaocheng Feng, Wanxiang Che, Min Li, Libo Qin

arXiv:2412.12932v2 通知类型: 替换-交叉摘要：大型多模态语言视觉模型（LVLMs）在多模态任务中最近显示出了令人惊叹的成功，包括多模态链式思考（MCoT）推理的进步。尽管取得了这些成功，当前的基准测试仍然遵循传统的范式，即多模态输入和文本模态输出，这导致了诸如缺乏视觉操作和表达模糊等重大缺点。受此启发，我们介绍了一个新的多模态链式思考（CoMT）基准测试以解决这些限制。不同于传统的MCoT基准测试，CoMT要求多模态输入和多模态推理输出，旨在模仿人类的推理过程，这种推理过程内在地结合了视觉操作。具体而言，CoMT包括四个类别：（1）视觉创作，（2）视觉删除，（3）视觉更新，和（4）视觉选择，以全面探索实际场景中的复杂视觉操作和简洁表达。我们在CoMT上评估了各种LVLMs和策略，揭示了当前方法的能力和局限性的某些关键见解。我们希望CoMT能够激发更多关于将多模态生成引入推理过程的研究。

发布时间: 2/18/2025

查看原文

SPHERE: 通过分层评估揭露视觉-语言模型的空间盲点

作者: Wenyu Zhang, Wei En Ng, Lixin Ma, Yuwen Wang, Jungqi Zhao, Allison Koenecke, Boyang Li, Lu Wang

arXiv:2412.12693v2 宣告类型: replace-cross 摘要：当前的视觉-语言模型可以理解基本的空间线索和简单的方向（例如，左、右、前、后），但在需要类似人类理解和实际应用的多维空间推理方面表现不佳。为解决这一差距，我们开发了 SPHERE（空间感知与层次推理评估），这是一种基于新的人标注数据集的支持层次评估框架。SPHERE 从基础技能到多技能整合，系统地对模型进行了从简单到复杂的多层次探索，结合了空间、视觉和逻辑理解的高级推理。对最先进的模型进行基准评估揭示出了显著的不足，尤其是在距离和接近性的推理、理解自中心视角和环境视角、以及在物理环境中应用空间逻辑方面。这些发现暴露了现有模型中的关键盲点，并强调了需要更高级的空间推理技术的迫切性，从而推动了更加接近人类空间认知的视觉-语言模型的发展。该数据集将在发表后开源。

发布时间: 2/18/2025

查看原文

LinguaLIFT：一种有效的两阶段指令调优框架，用于低资源语言推理

作者: Hongbin Zhang, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang

arXiv:2412.12499v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）展示了令人印象深刻的多语言推理能力，这得益于广泛的多语言预训练语料库和指令微调数据。然而，由于预训练语料库中的语言不平衡，高资源和低资源语言推理任务之间存在性能差距，在现有推理基准缺乏低资源语言覆盖且存在评价偏差的情况下，这一差距有所加剧。为了解决这一问题，我们提出了LinguaLIFT，这是一种促进低资源语言推理的两阶段指令调优框架。LinguaLIFT采用一种语言对齐层，以代码切换的方式捕捉多语言对齐，而无需多语言指令或平行数据，从而通过仅使用英语指令微调数据将跨语言推理能力转移给低资源语言。为了全面评估多语言推理能力，我们引入了多语言数学世界问题（MMWP）基准，该基准涵盖了21种低资源、17种中资源和10种高资源语言。实验结果表明，LinguaLIFT在MMWP和四个广泛使用的基准上优于几种竞争性基线。

发布时间: 2/18/2025

查看原文

纳维或罪犯：通过比喻性化身破解语言模型

作者: Yu Yan, Sheng Sun, Junqi Tong, Min Liu, Qi Li

arXiv:2412.12145v2 安全类型：替换交叉摘要：隐喻作为一种隐含的信息传递方法，有助于对复杂主题进行泛化理解。然而，隐喻可能会被利用来绕过大型语言模型（LLMs）的安全对齐机制，导致有害知识的盗窃。在我们的研究中，我们介绍了一种新的攻击框架，利用LLMs的想象力实现越狱，即通过对抗性隐喻（AVATAR）。具体来说，为了引发有害的响应，AVATAR从给定的有害目标中提取有害实体，并基于LLMs的想象力将它们映射到无害的对抗实体。然后，根据这些隐喻，有害目标被嵌入到类人交互中，以适应性地实现越狱。实验结果表明，AVATAR能够有效地且可转移地对LLMs进行越狱，并在多个高级LLMs中实现了最先进的攻击成功率。我们的研究揭示了LLMs从其内在想象力能力中所面临的安全风险。此外，对该攻击的分析表明，LLMs对对抗性隐喻的脆弱性以及开发抵御对抗性隐喻导致的越狱的防御方法的必要性。**警告：本文包含可能来自LLMs的有害内容。**

发布时间: 2/18/2025

查看原文

bayesian流是你所需要的，以采样化学空间中的非分布数据

作者: Nianze Tao

arXiv:2412.11439v4 出版类型: replace-cross 摘要: 生成具有更高性质的新分子，即分布外生成，对于从头药物设计至关重要。然而，对于基于分布学习的方法，例如扩散模型，解决这一挑战并不容易，因为这些方法的设计目的是尽可能贴近训练数据的分布。在本文中，我们展示了贝叶斯流网络有能力轻松生成高质量的分布外样本，这些样本适用于多种场景。我们引入了一种半自回归训练/采样方法，帮助提升模型性能，并超越现有的先进模型。

发布时间: 2/18/2025

查看原文

USM: 无偏调查建模以限制推荐系统中的负面用户体验

作者: Chenghui Yu, Peiyi Li, Haoze Wu, Yiri Wen, Bingfeng Deng, Hongyu Xiong

arXiv:2412.10674v3 宣告类型：替换交叉摘要：减少负面用户体验对于推荐平台的成功至关重要。向用户展示不适宜内容不仅可能对用户的心理健康产生负面影响，还可能促使用户离开平台，损害平台的长期成功。然而，推荐算法倾向于更重视积极反馈信号，而这些信号的负反馈信号稀缺，这可能导致有价值负面用户反馈的忽视。在本文中，我们提出了一种旨在限制负面用户体验的方法。我们的方法主要依赖于向用户分发抨击式调查、从调查中建模用户的反馈，并将模型预测整合到推荐系统中。我们进一步通过引入Learning Hidden Unit Contributions模块和Squeeze-and-Excitation模块，增强了基础调查模型。此外，我们通过应用调查提交模型，努力解决响应偏差问题；A/B测试结果表明，调查性行为率和不适宜内容率分别减少了1.44%至3.9%。此外，我们将方法与不包含我们方法的在线基线进行了对比。结果表明，与基线相比，我们的方法显著减少了投诉率和不喜欢率，分别减少了1%至2.27%，证实了我们方法在提升用户体验方面的有效性。在我们基于该方法在平台上启动调查模型后，该模型分别在投诉率、不喜欢率和不适宜内容率方面带来了1.75%、2.57%和2.06%的降低。

发布时间: 2/18/2025

查看原文

FLIP：以流为中心的生成规划作为通用 manipulation 世界模型

作者: Chongkai Gao, Haozhuo Zhang, Zhixuan Xu, Zhehao Cai, Lin Shao

arXiv:2412.08261v2 宣布类型: replace-cross 摘要：我们旨在开发一种基于模型的规划框架，该框架能够随着模型和数据预算的增加进行扩展，并且仅通过语言和视觉输入即可实现通用任务的操纵。为此，我们提出了以流为中心的生成规划（FLIP），这是一种基于视觉空间的模型驱动规划算法，具备三个关键模块：1. 多模态流生成模型，作为通用动作提案模块；2. 流条件下的视频生成模型，作为动力学模块；3. 视觉-语言表示学习模型，作为价值模块。给定初始图像和语言指令作为目标，FLIP可以逐步搜索最大化折现回报的长时流和视频计划，以完成任务。FLIP能够使用图像流作为通用动作表示综合长时计划，密集的流信息还为长时视频生成提供了丰富的指导。此外，合成的流和视频计划可以指导机器人执行的低层级控制策略的训练。在多种基准上的实验表明，FLIP能够提高长时视频计划合成的成功率和质量，并具有交互式世界模型的特性，为未来的工作开辟了更广泛的应用。视频演示可以在我们的网站上找到：https://nus-lins-lab.github.io/flipweb/。

发布时间: 2/18/2025

查看原文

CBraMod: 交叉脑基础模型用于EEG解码

作者: Jiquan Wang, Sha Zhao, Zhiling Luo, Yangxuan Zhou, Haiteng Jiang, Shijian Li, Tao Li, Gang Pan

arXiv:2412.07236v2 宣布类型: 替换交叉摘要：脑电图（EEG）是一种无创技术，用于测量和记录大脑的电活动，广泛应用于各种BCI和医疗保健应用中。早期的EEG解码方法依赖于监督学习，受到特定任务和数据集的限制，阻碍了模型性能和泛化能力。随着大规模语言模型的成功，有关EEG基础模型的研究日益增多。然而，这些研究仍然存在一些挑战：首先，现有的大多数EEG基础模型都采用了全面的EEG建模策略。它们一起建模所有EEG片段之间的时空依赖性，但却忽略了由于EEG信号的独特结构特性，这些时空依赖性是异质的。其次，现有的EEG基础模型在广泛的下游BCI任务中泛化能力有限，因为EEG数据的格式各不相同，这使得它们难以适应。为了解决这些问题，我们提出了一种名为CBraMod的新基础模型。具体而言，我们设计了一个交叉变压器作为骨干网络，以充分利用EEG信号的结构特性，通过两个并行的注意力机制分别建模时空依赖性。我们还利用了一种不对称条件位置编码方案，可以编码EEG片段的位置信息，并且可以轻松适应具有不同格式的EEG。CBraMod通过基于片段的掩盖EEG重构进行了预训练。我们在多达10个下游BCI任务（12个公开数据集）上评估了CBraMod。CBraMod在广泛的任务中取得了最先进的性能，证明了其强大的能力和泛化能力。源代码已在https://github.com/wjq-learning/CBraMod公开。

发布时间: 2/18/2025

查看原文

基于局部SGD的高效分布式训练方法用于大型语言模型

作者: Jialiang Cheng, Ning Gao, Yun Yue, Zhiling Ye, Jiadi Jiang, Jian Sha

arXiv:2412.07210v2 分布式训练类型: 替换-交叉摘要：分布式训练方法对于大型语言模型（LLMs）至关重要。然而，现有的分布式训练方法往往在异构或大规模环境中受到通信瓶颈、慢节点和弹性有限的问题困扰。本地SGD方法已被提出以解决这些问题，但由于额外的内存开销以及效率和稳定性方面的不足，其在大规模训练中的有效性仍受到限制。为了应对这些问题，我们提出了EDiT，这是一种创新的高效分布式训练方法，结合了定制化的本地SGD方法和模型分割技术，以增强大规模训练的效率。EDiT在前向传递过程中按层执行参数同步，从而减少通信和内存开销，并允许操作重叠。此外，EDiT采用伪梯度惩罚策略来抑制损失尖峰，这确保了训练的稳定性并提高了性能。另外，我们引入了A-EDiT，这是一种完全异步的EDiT变体，适用于异构集群。基于EDiT/A-EDiT，我们进行了一系列实验来验证LLMs的大规模异步训练，并进行了全面分析。实验结果表明EDiT/A-EDiT的优越性能，确立了它们作为分布式LLM训练的稳健解决方案的地位，适用于多种计算生态系统。相关代码可在Atorch代码库中找到：https://github.com/intelligent-machine-learning/atorch/tree/main/atorch/local_sgd。

发布时间: 2/18/2025

查看原文