arXiv 论文列表

作者: Giordano Cicchetti, Eleonora Grassucci, Luigi Sigillo, Danilo Comminiello

arXiv:2412.11959v2 宣布类型: replace-cross 摘要：人类感知将多种感觉整合为对周围现实的统一理解，如视觉、听觉和语言。尽管近期的多模态模型通过对比学习对齐了成对的感觉，但在扩展到多种感觉时，它们的解决方案并不适用。这些模型通常将每个感觉对齐到一个指定的锚点，但在确保所有感觉相互对齐方面并未达到要求，导致在需要联合理解多种感觉的任务中表现不佳。在本文中，我们重新思考了多模态学习中的传统成对方法，并提出了新的Gramian表示对齐度量（GRAM），克服了上述限制。GRAM直接在模态嵌入所在的高维空间中学习并对齐 $n$ 种模态，通过最小化由模态向量张成的 $k$ 维平行多面体的Gramian体积来确保所有模态的同时几何对齐。GRAM可以在任何下游方法中替换余弦相似度，适用于2到 $n$ 种模态，并提供比以前的相似度度量更具意义的对齐。基于GRAM的新对比损失函数增强了多模态模型在高维嵌入空间中的对齐，从而在视频-音频-文本检索和音频-视频分类等下游任务中达到了新的性能最佳。项目页面、代码和预训练模型可在 https://ispamm.github.io/GRAM/ 获取。

发布时间: 2/13/2025

查看原文

从自我训练的角度重新思考链式思维

作者: Zongqian Wu, Baoduo Xu, Ruochen Cui, Mengmeng Zhan, Xiaofeng Zhu, Lei Feng

arXiv:2412.10827v3 Announce Type: replace-cross 摘要：链式思考（CoT）推理已经 emerged 作为激活大语言模型（LLMs）潜在能力的有效方法。有趣的是，我们观察到 CoT 推理和自训练之间存在共同的核心目标：迭代利用模型生成的信息，逐步降低预测不确定性。基于这一见解，我们提出了一种新的 CoT 框架以提高推理性能。该框架结合了两个关键组件：(i) 一个针对特定任务的提示模块，优化初始推理过程，以及 (ii) 一个自适应推理迭代模块，动态改进推理过程，并解决之前 CoT 方法的局限性，即过度推理和连续推理迭代之间的高相似性。广泛的经验表明，所提出的方法在性能和计算效率方面均取得了显著优势。

发布时间: 2/13/2025

查看原文

所有你需要的是一个定制化的坐标系统

作者: Junjie Zhou, Ke Zhu, Jianxin Wu

arXiv:2412.09388v2 公告类型：替换交叉摘要：知识蒸馏（KD）对于将大型教师网络的暗知识转移到小型学生网络中至关重要，从而使得学生网络可以比教师网络更高效，但具有相当的精度。现有的KD方法依赖于专门针对目标任务训练的大型教师网络，这既非常不灵活，也不高效。在本文中，我们argue认为，可以通过半监督预训练模型有效地充当教师，并可以通过其中特征所在的坐标系统或线性子空间来捕获其暗知识。然后我们只需对教师网络进行一次前向传递，然后为学生网络定制坐标系统（TCS）。我们的TCS方法不需要教师模型，并适用于各种架构，适用于KD和实际的少样本学习，并允许具有大容量差距的跨架构蒸馏。实验结果显示，与现有的KD方法相比，TCS方法在准确率方面显著更高，同时只需要大约一半的训练时间和GPU内存成本。

发布时间: 2/13/2025

查看原文

NYT-连接：一个让系统1思考者棘手的看似简单的文本分类任务

作者: Angel Yahir Loredo Lopez, Tyler McDonald, Ali Emami

arXiv:2412.01621v2 Announce Type: replace-cross 摘要：大规模语言模型（LLMs）在各种基准测试中展示了令人印象深刻的性能，但它们进行有目的推理的能力仍然存在疑问。我们介绍了来自《纽约时报》连接游戏的358个简单词分类谜题组成的NYT-Connections基准数据集。该基准旨在惩罚快速、直观的“系统1”思考，隔离基本的推理能力。我们在这三个配置中评估了六种近期的LLMs、一个简单的机器学习启发式方法以及人类的表现：单次尝试、没有提示的多次尝试和带有上下文提示的多次尝试。我们的研究发现表现出显著的性能差距：即使是表现最佳的LLMs，如GPT-4，也未能接近人类的表现，差距接近30%。值得注意的是，随着任务难度的增加，如链式推理和自我一致性等高级提示技术显示出减弱的效果。NYT-Connections独特地结合了语言隔离、对直观捷径的抵抗以及定期更新以减少数据泄露，提供了一种评估LLM推理能力的全新工具。

发布时间: 2/13/2025

查看原文

GraphXAIN：图神经网络的叙事解释

作者: Mateusz Cedro, David Martens

arXiv:2411.02540v3 宣告类型: replace-cross 摘要: 图神经网络（GNNs）是一种用于图结构数据机器学习的强大技术，但它们在可解释性方面提出了挑战。现有的GNN解释方法通常会产生技术输出，如子图和特征重要性分数，这些输出对于非数据科学家来说难以理解，并且违背了解释的目的。受到最近可解释人工智能（XAI）研究的启发，我们提出了一种名为GraphXAIN的方法，该方法生成自然语言叙述来解释GNN预测。GraphXAIN是一种模型和解释器无关的方法，它使用大型语言模型（LLMs）将解释性子图和特征重要性分数转化为连贯的故事般的、关于GNN决策过程的解释。在真实数据集上的评估展示了GraphXAIN改进图解释的能力。通过对机器学习研究人员和实践者的调研发现，GraphXAIN在可解释性四个方面——可理解性、满意度、说服力和用于传达模型预测的有效性——均有所增强。当与另一种图解释方法结合使用时，GraphXAIN进一步提高了可信度、洞察力、信心和易用性。值得注意的是，95%的参与者认为GraphXAIN是GNN解释方法的一个有价值的补充。通过引入自然语言叙述，我们的方法同时为图从业人员和非专业人士提供更清晰、更有效的解释。

发布时间: 2/13/2025

查看原文

toddlers'积极凝视行为支持自我监督对象学习

作者: Zhengyang Yu, Arthur Aubret, Marcel C. Raabe, Jane Yang, Chen Yu, Jochen Triesch

arXiv:2411.01969v2 通告类型: 替换-交叉摘要：蹒跚学步的儿童几乎不需要监督就能识别不同视角下的物体。近期的研究认为，儿童在与物体互动时通过将接近时间的视觉输入映射到相似的表示上来发展这种能力。高清晰度的视觉仅在中心视野中可用，这可能解释了为什么儿童（就像成年人一样）在这样的互动中不断移动视点。尚不清楚儿童是否以及如何通过这些眼球运动来管理他们的视觉体验，从而支持他们对物体表示的学习。在这项工作中，我们探讨了一种生物启发式的视觉学习模型能否利用儿童在玩乐会话中的眼球行为来发展视点不变的物体识别。利用双人游戏中佩戴的眼动追踪技术，我们通过裁剪以注视位置为中心的图像区域来模拟儿童的中心视野经验。这种视觉流为基于时间的自我监督学习算法提供了输入。我们的实验表明，儿童的注视策略支持了视点不变的物体表示的学习。我们的分析还揭示了中央视野中高清晰度的有限区域对于这一点至关重要。我们还发现，与成人相比，儿童的视觉体验能产生更健壮的表示，主要是因为他们在持有物体时注视更长的时间。总的来说，我们的工作揭示了儿童的眼球行为如何支持自我监督的视点不变物体识别的学习。

发布时间: 2/13/2025

查看原文

FIRE：迭代检索与验证的事实核查

作者: Zhuohan Xie, Rui Xing, Yuxia Wang, Jiahui Geng, Hasan Iqbal, Dhruv Sahnan, Iryna Gurevych, Preslav Nakov

arXiv:2411.00784v2 宣告类型: replace-cross 摘要：验证长篇文本的准确性是一项挑战，因此通常的做法是将其分解为多个原子断言。对这些原子断言的典型验证方法涉及检索固定数量的证据，然后进行验证步骤。然而，这种方法通常不太经济实惠，因为它未能充分利用验证模型对断言的内部知识，并且无法复制人类搜索策略中的迭代推理过程。为了解决这些限制，我们提出了一种名为FIRE的新型基于代理的框架，该框架以迭代的方式结合了证据检索和断言验证。具体而言，FIRE采用了一种统一机制来决定是提供最终答案还是生成后续的搜索查询，基于其对当前判断的信心。我们将FIRE与其他强大的事实核查框架进行比较，发现它在性能上略胜一筹，同时将大型语言模型（LLM）成本降低了平均7.6倍，搜索成本降低了16.5倍。这些结果表明，FIRE在大规模事实核查操作中的应用前景广阔。我们的代码可在 https://github.com/mbzuai-nlp/fire.git 获取。

发布时间: 2/13/2025

查看原文

蓝后缀：针对 Jailbreak 攻击的强化蓝队方法用于视觉-语言模型

作者: Yunhan Zhao, Xiang Zheng, Lin Luo, Yige Li, Xingjun Ma, Yu-Gang Jiang

arXiv:2410.20971v2 黑盒防御类型：替换交叉摘要：在本文中，我们专注于针对VLMs的隐私突破攻击的黑盒防御。现有的黑盒防御方法要么是单模态的，要么是双模态的。单模态方法通过增强VLM的视觉或语言模块，而双模态方法则通过文本-图像表示对齐来增强模型的鲁棒性。然而，这些方法存在两个局限性：1）它们无法充分利用跨模态信息，或2）它们在良性输入上的性能会下降。为了解决这些局限性，我们提出了一种名为BlueSuffix的新颖的蓝队方法，该方法可以在黑盒设置下防御目标VLM免受隐私突破攻击，而不牺牲其性能。BlueSuffix包括三个关键组件：1）针对隐私突破图像的视觉净化器，2）针对隐私突破文本的文本净化器，3）使用强化微调的蓝队后缀生成器，以增强跨模态鲁棒性。通过在四个VLM（LLaVA、MiniGPT-4、InstructionBLIP和Gemini）和四个安全性基准（有害指令、AdvBench、MM-SafetyBench和RedTeam-2K）上进行实证研究，我们展示了BlueSuffix相较于基线防御方法具有显著的优势。我们的BlueSuffix为防御VLMs免受隐私突破攻击的方向打开了一个有前景的途径。代码可在https://github.com/Vinsonzyh/BlueSuffix获取。

发布时间: 2/13/2025

查看原文

TimeSuite：通过接地调整提高用于长视频理解的MLLMs

作者: Xiangyu Zeng, Kunchang Li, Chenting Wang, Xinhao Li, Tianxiang Jiang, Ziang Yan, Songze Li, Yansong Shi, Zhengrong Yue, Yi Wang, Yali Wang, Yu Qiao, Limin Wang

arXiv:2410.19702v2 通知类型: replace-cross 摘要：多模态大型语言模型（MLLMs）在短视频理解方面表现出了令人印象深刻的性能。然而，MLLMs 在理解长视频方面仍然面临挑战。本文提出 TimeSuite，这是一个新的设计方案集合，旨在将现有的短视频 MLLMs 适应于长视频理解，包括一个简单而高效的框架来处理长视频序列、高质量的视频数据集用于 MLLMs 的定位调优，以及一个精心设计的指令调优任务，以在传统 QA 格式中显式地融入定位监督。具体来说，基于 VideoChat，我们提出了一种称为 VideoChat-T 的长视频 MLLM，通过实现标记混洗来压缩长视频标记，并引入了时间自适应位置编码（TAPE）以增强视觉表示的时间意识。同时，我们引入了 TimePro，这是一个综合性的定位为中心的指令调优数据集，包含 9 个任务和 349,000 个高质量的定位注释。值得注意的是，我们设计了一种新的指令调优任务类型，称为时间定位说明词，用于在相应的时间戳预测中进行详细的视频描述。这种显式的时间位置预测将指导 MLLM 在生成描述时正确地关注视觉内容，从而减少由大语言模型引起的幻觉风险。实验结果表明，我们的 TimeSuite 为增强短视频 MLLM 的长视频理解能力提供了一个成功解决方案，分别在 Egoschema 和 VideoMME 的基准上实现了 5.6% 和 6.8% 的改进。此外，VideoChat-T 展示出了稳健的零样本时间定位能力，显著优于现有的最先进的 MLLMs。经过微调后，其性能与传统的监督专家模型相当。

发布时间: 2/13/2025

查看原文

基于变分因果推理的反事实生成建模

作者: Yulun Wu, Louie McConnell, Claudia Iriondo

arXiv:2410.12730v2 通告类型: replace-cross 摘要: 在结果是高维的（例如基因表达、面部图像）且协变量相对较有限的情况下，传统的因果推断和监督学习方法评估个体在干预下的反事实结果是一项具有挑战性的任务。在这种情况下，为了预测在反事实治疗下的结果，除了协变量外，利用观察结果中包含的个体信息至关重要。先前利用变分推断进行反事实生成模型的工作主要集中在条件变分自编码器形式下的神经适应和模型变体上，我们认为这种方法从根本上来说不适用于因果推断中反事实的概念。在这项工作中，我们提出了一种新的变分贝叶斯因果推断框架及其理论依据，以适当地处理反事实生成模型任务，通过这种方法，我们能够在训练过程中端到端地进行反事实监督，而无需任何反事实样本，并促进有助于在反事实生成中正确识别因果效应的去纠缠外生噪声推断。在实验中，我们在反事实生成模型的多个基准测试中展示了我们框架相对于最先进的模型的优势。

发布时间: 2/13/2025

查看原文