arXiv 论文列表

作者: Xinyue Chen, Nathan Yap, Xinyi Lu, Aylin Gunal, Xu Wang

arXiv:2502.01564v1 交叉公告类型：cross 摘要：视频会议平台通过转录或摘要线性地显示会话。然而，在会议期间，想法并不会线性地产生。我们利用大语言模型（LLMs）实时生成对话图，帮助人们通过视觉方式结构化和连接想法。平衡减少用户在对话过程中认知负荷的同时，提供足够的控制权以利用人工智能，我们探索了两种系统变体，分别涵盖了不同级别的AI辅助。在Human-Map中，AI生成会议的摘要作为节点，用户使用这些节点创建对话图。在AI-Map中，AI生成对话图，用户可以在其中进行编辑。我们对十个用户对进行了单被试实验，比较了两种MeetMap变体和一个基线。用户更偏好MeetMap，因为它与用户的会话心理模型更一致，优于传统记录方法。用户喜欢AI-Map的易用性，因为其对努力的需求较低，同时也赞赏Human-Map中的亲自动手机会进行意义构建。

发布时间: 2/4/2025

查看原文

基于搜索的对抗估计以提高离策强化学习的数据效率

作者: Federico Malato, Ville Hautamaki

arXiv:2502.01558v1 类型: cross 摘要: 在深度强化学习（DRL）中，样本效率低下一直是一个长期存在的挑战。尽管取得了巨大的进步，但该问题尚未得到解决，特别是在稀疏奖励或延迟奖励的环境中尤为具有挑战性。在我们的工作中，我们提出使用对抗性估计作为一种新的、简单且高效的手段，来缓解反馈基础的DRL算法中该问题。我们的方法利用一小集人类收集的轨迹的潜在相似性搜索来提升学习效果，仅使用五分钟的人类记录的经验。研究结果表明，使用对抗性估计训练的算法比其原始版本收敛更快。此外，我们讨论了我们的方法如何在极稀疏奖励的极端场景中使反馈基础的算法能够学习。

发布时间: 2/4/2025

查看原文

电子商务搜索中的查询品牌实体链接

作者: Dong Liu, Sreyashi Nag

arXiv:2502.01555v1 宣告类型: cross 摘要: 在本文中，我们探讨了电子商务搜索查询中的品牌实体链接问题。实体链接任务可以通过以下两种方式之一来完成：i) 一个两阶段过程，包括实体提及检测后跟实体消歧；或 ii) 直接从输入文本中获取目标实体的端到端链接方法。该任务面临独特的挑战：查询极其简短（平均词数为2.4词），缺乏自然语言结构，并且必须处理大量的独特品牌空间。我们提出了一种结合命名实体识别和匹配的两阶段方法，并提出了一种使用极端多类分类的新型端到端解决方案。我们通过离线基准和在线A/B测试的影响来验证我们的解决方案。

发布时间: 2/4/2025

查看原文

FireCastNet：将地球视为图进行季节性火灾预测

作者: Dimitrios Michail, Charalampos Davalas, Lefki-Ioanna Panagiotou, Ioannis Prapas, Spyros Kondylatos, Nikolaos Ioannis Bountos, Ioannis Papoutsis

arXiv:2502.01550v1 Announce Type: cross 摘要：随着气候变化预计将加剧火灾天气条件，准确及时地预测野火变得越来越重要，以减少灾害。在本研究中，我们利用SeasFire，这是一个包含气候、植被、海洋指数和人类相关变量的全面全球野火数据集，利用机器学习技术实现季节性野火预测。在预测分析中，我们介绍了一种名为FireCastNet的新型架构，该架构结合了3D卷积编码器与GraphCast，最初是用于使用图神经网络进行全球短期天气预测。FireCastNet被训练以捕捉导致野火发生的背景情况，无论是空间还是时间尺度。我们的研究重点在于评估我们的模型在全球范围内预测不同预报时间范围内的燃烧区域存在情况的有效性，以及不同的空间或/和时间背景如何影响性能。我们的研究结果展示了深度学习模型在季节性火灾预测中的潜力；更长的输入时间序列会导致更稳健的预测，而整合空间信息以捕获野火的空间-时间动态可以提高性能。最后，我们的结果表明，为了在更长时间范围的预测中提高性能，需要考虑更大的空间 receptive field。

发布时间: 2/4/2025

查看原文

VideoRAG：增强生成与极端长上下文视频的检索增广生成

作者: Xubin Ren, Lingrui Xu, Long Xia, Shuaiqiang Wang, Dawei Yin, Chao Huang

arXiv:2502.01549v1 类别：交叉学科摘要：检索增强生成（RAG）已经在通过外部知识集成增强大型语言模型（LLMs）方面取得了显著的成功，然而其应用主要集中在文本内容上，而丰富的多媒体视频知识领域则被大量忽视。本文介绍了VideoRAG，这是第一个专门设计用于处理和理解极长上下文视频的检索增强生成框架。我们的核心创新在于其双通道架构，无缝地结合了（i）基于图的文本知识 grounding，用于捕捉跨视频语义关系，以及（ii）多模态上下文编码，用于高效地保留视觉特征。这一新颖的设计使VideoRAG能够通过构建跨越多个视频且通过专门的多模态检索范式保持语义依赖的精确知识图，来处理任意长度的视频。在我们提出的包括超过160个视频共计134+小时长度的LongerVideos基准测试集合上进行全面的经验性评估表明，VideoRAG在性能上显著优于现有的RAG替代方案和长视频理解方法。VideoRAG的实现源代码和基准数据集已在以下链接公开：https://github.com/HKUDS/VideoRAG。

发布时间: 2/4/2025

查看原文

一个大型语言模型可能知道的数字是什么？

作者: Raja Marjieh, Veniamin Veselovsky, Thomas L. Griffiths, Ilia Sucholutsky

arXiv:2502.01540v1 类别: 切换摘要：数字是人类表示和描述周围世界的基本组成部分。因此，学习有效的数字表示对于大规模语言模型的成功至关重要，随着这些模型在日常生活决策中的集成越来越深入。然而，这些模型面临一个挑战：根据上下文，相同的数字标记序列，例如911，既可以被视作一个数字，也可以被视作一个字符串。这种二元性会导致什么样的表示形式，以及其下游的影响是什么？使用认知科学中的基于相似性的提示技术，我们展示了大规模语言模型学习到了一个融合了字符串和数字表示的表示空间。具体而言，我们展示了这些模型在整数对上引发的相似性判断可以通过Levenshtein编辑距离和数值对数线性距离的组合来捕捉，这表明存在一种交织的表示形式。通过一系列实验，我们展示了这种交织在潜在嵌入中的反映，以及上下文如何减轻但无法完全消除这种交织，同时还展示了这种交织如何传播到一个现实决策场景中。这些结果揭示了变压器模型中的一种表示张力，这些模型必须从文本输入中学习数字的含义。

发布时间: 2/4/2025

查看原文

偏好泄露：LLM 作为法官时的一种污染问题

作者: Dawei Li, Renliang Sun, Yue Huang, Ming Zhong, Bohan Jiang, Jiawei Han, Xiangliang Zhang, Wei Wang, Huan Liu

arXiv:2502.01534v1 宣告类型：交叉摘要：作为评委的大型语言模型（LLMs）和基于LLM的数据合成已经成为了两种重要的LLM驱动的数据标注方法，用于模型开发。尽管它们的结合显著提高了模型训练和评估的效率，但这种新的模型开发范式所带来的潜在污染却很少受到关注。在本文中，我们揭示了由数据生成器LLM与基于LLM的评委之间的相关性引起的作为评委的LLM中的偏好泄漏问题。为了研究这一问题，我们首先定义了数据生成器LLM和评委LLM之间的三种常见相关性：是同一个模型、具有继承关系以及属于同一模型家族。通过广泛的实验，我们实证地确认了偏好泄漏导致的评委偏向其相关的学生模型的问题，在多个LLM基线和基准中都得到了验证。进一步的分析表明，偏好泄漏是一个普遍存在但更难检测的问题，与以前在作为评委的LLM场景中识别出的偏差相比更为隐蔽。所有这些发现都暗示，偏好泄漏在作为评委的LLM领域是一个广泛且具有挑战性的问题。我们已在以下链接发布了所有代码和数据：https://github.com/David-Li0406/Preference-Leakage。

发布时间: 2/4/2025

查看原文

蛋白质数据训练的变压器能学会关注欧几里得距离

作者: Isaac Ellmen, Constantin Schneider, Matthew I. J. Raybould, Charlotte M. Deane

arXiv:2502.01533v1 声明类型：交叉摘要：虽然传统的Transformer通常处理序列数据，但它们可以与结构模型结合使用，通常是SE(3)不变或协变的图神经网络（GNN），用于3D应用，如蛋白质结构建模。这些混合模型通常涉及以下两种方式之一：（1）预处理/标记结构特征作为Transformer的输入，或者（2）将Transformer嵌入在结构表示中进行处理。然而，有证据表明，Transformer可以学会独立处理结构信息，例如AlphaFold3的结构扩散模型。在本文中，我们展示当传递坐标的一维嵌入时，Transformer可以作为独立的结构模型进行功能运作。我们首先提供了一种理论解释，说明Transformer如何学习将注意力过滤为具有学习方差的3D高斯。然后，我们使用模拟的3D点和蛋白质掩码标记预测的上下文中验证了这一理论。最后，我们展示了使用结构预训练蛋白质Transformer编码器可以提高下游任务的性能，优于定制的结构模型。综上所述，本文为使用标准Transformer作为混合结构-语言模型提供了基础。

发布时间: 2/4/2025

查看原文

从训练范式的视角高效整合大型语言模型与视觉感知：一种综述

作者: Xiaorui Ma, Haoran Xie, S. Joe Qin

arXiv:2502.01524v1 Announce Type: cross 摘要：视觉-语言模态的集成一直是多模态学习的一个重要研究方向，传统上依赖于视觉-语言预训练模型。然而，随着大规模语言模型（LLMs）的出现，人们开始更加倾向于将LLMs与视觉模态结合起来。随着这一趋势的发展，将视觉模态整合到LLMs中的训练范式也有所演变。最初，这种方法是通过预训练模态集成器来进行的，称为单阶段调优。此后，这种方法发展出了专注于性能提升的两阶段调优方法，以及侧重于参数效率的直接适配方法。然而，现有的综述主要关注使用两阶段调优方法的最新视觉大规模语言模型（VLLMs），对于训练范式的演变及其独特的参数效率考虑方式研究有所欠缺。本文从训练范式视角出发，整理和回顾了来自顶级会议、期刊和高被引Arxiv论文的34个VLLMs，重点关注适应期间的参数效率。我们首先介绍大规模语言模型的架构和参数高效学习方法，随后讨论视觉编码器，并给出模态集成器的综合分类。接着，我们综述了三种训练范式及其效率考虑，总结了VLLM领域的基准测试结果。为深入了解它们在参数效率方面的有效性，我们比较和讨论了代表性模型的实验结果，其中涉及直接适配范式的实验结果也进行了复现。通过深入探讨这些近期发展和实际应用，这篇综述对研究者和从业人员有效将视觉模态整合到LLMs中的导航起到了重要作用。

发布时间: 2/4/2025

查看原文

通过记忆增强实现元强化学习中的任务泛化

作者: Kaixi Bao, Chenhao Li, Yarden As, Andreas Krause, Marco Hutter

arXiv:2502.01521v1 交叉公告类型：cross 摘要：在强化学习（RL）中，代理常常难以在与训练过程中遇到的任务不同的任务上表现良好。这一限制为在多样化和动态的任务环境中广泛部署RL带来了挑战。在本文中，我们引入了记忆增强方法，这是一种基于记忆的RL方法，旨在提高任务泛化能力。我们的方法利用任务结构化的增强来模拟可能的分布外场景，并结合记忆机制以实现上下文感知策略适应。通过在预定义的任务集上训练，我们的策略能够在不需额外与环境交互的情况下，通过记忆增强实现对未见过任务的泛化。通过在腿足移动任务上的广泛模拟实验和现实世界硬件评估，我们展示了我们的方法能够在实现对未见过任务的零样本泛化的同时，保持稳健的分布内性能和高数据效率。

发布时间: 2/4/2025

查看原文