arXiv 论文列表

作者: Shubham Gupta, Zichao Li, Tianyi Chen, Cem Subakan, Siva Reddy, Perouz Taslakian, Valentina Zantedeschi

arXiv:2502.07971v1 类别: cross 摘要: 文档检索是问答系统的核心组件，因为它使答案生成能够基于新的和大规模的语料库进行条件设定。虽然有效，但将文档编码为高维嵌入以进行相似度搜索的标准做法会导致大量的内存和计算开销，并且也让检查系统的内部工作变得困难。在本文中，我们提出了一种基于树的方法来组织和表示参考文档，该方法可以在成本和实用性之间提供灵活性，并简化语料库内容和检索操作的检查。我们的方法称为ReTreever，它在一个二叉树的每个内部节点上联合学习一个路由函数，使得查询和参考文档被分配到相似的树分支，从而直接优化检索性能。我们的评估显示，ReTreever通常能够保持完整的表现力。其层次结构进一步提供了强大的粗粒度表示，通过间接学习有意义的语义分组来增强透明度。在层次检索方法中，ReTreever在最低延迟下实现了最佳的检索准确性，证明了这类技术在实际应用中是可行的。

发布时间: 2/13/2025

查看原文

图中分布外泛化的生成风险最小化

作者: Song Wang, Zhen Tan, Yaochen Zhu, Chuxu Zhang, Jundong Li

arXiv:2502.07968v1 Announce Type: cross 摘要：图中的离分布外（OOD）泛化旨在应对测试图分布与训练图分布不同的场景。尽管像图像这样的独立同分布数据使得离分布外泛化的挑战较为突出，但由于图结构数据的非独立同分布性质和复杂的结构性信息，图结构数据上的离分布外泛化问题仍然具有挑战性。最近，一些关于图的离分布外泛化的研究探索了提取在不同分布下共享关键分类信息的不变子图。然而，这种策略可能无法完全捕捉到不变信息，因为离散结构的提取可能会导致不变信息的丢失或引入伪信息。在本文中，我们提出了一种创新框架，称为生成风险最小化（GRM），旨在为每个待分类的输入图生成一个不变子图，而不是提取。为了解决在没有最优不变子图（即地面真值）的情况下优化的挑战，我们通过引入一个潜在的因果变量推导出了所提出的GRM目标的可处理形式，并通过我们的理论分析验证了其有效性。我们还在各种真实世界的图数据集上进行了广泛的实验，这些实验在节点级别和图级别上进行了离分布外泛化，结果表明了我们框架GRM的优越性。

发布时间: 2/13/2025

查看原文

被词语之网困住：LLM会在医学文献中上当吗？

作者: Hye Sun Yun, Karen Y. C. Zhang, Ramez Kouzy, Iain J. Marshall, Junyi Jessy Li, Byron C. Wallace

arXiv:2502.07963v1 类型: cross 摘要: 医学研究在将新颖治疗方法转化为临床实践方面面临着广泛记录的挑战。出版激励促使研究人员呈现“积极”的发现，即使实证结果是模棱两可的。因此，作者常常在文章摘要中操控研究结果是广为人知的现象。这种操控可能会影响临床医生对证据的解读，并可能影响患者的治疗决策。在这项研究中，我们询问大型语言模型（LLMs）对试验结果的解读是否也会受到操控的影响。这是因为LLMs正越来越多地被用于浏览和综合医学证据。我们评估了22种LLM，发现它们普遍比人类更容易受到操控的影响。它们还可能将操控传播到其输出内容中：我们发现证据表明，LLMs在生成的白话摘要中不自觉地吸收了操控。然而，我们还发现，LLMs通常能够识别操控，并可以通过某种方式提示它们来减轻操控对LLM输出的影响。

发布时间: 2/13/2025

查看原文

VSC-RL: 基于变分子目标条件强化学习的自主视觉-语言代理进阶

作者: Qingyuan Wu, Jianheng Liu, Jianye Hao, Jun Wang, Kun Shao

arXiv:2502.07949v1 类型: cross 摘要：目前最先进的（SOTA）强化学习（RL）方法使具有视觉-语言能力的代理能够在没有人类监督的情况下从与环境的交互中学习。然而，它们在处理现实世界中的复杂序列决策任务时面临着学习效率问题，尤其是在稀疏奖励信号和长时依赖性方面。为有效解决这一问题，我们引入了变分子目标条件强化学习（VSC-RL），将其所提出的视觉-语言序列决策问题重新表述为变分目标条件的RL问题，从而能够利用先进的优化方法来提高学习效率。具体而言，VSC-RL优化子目标证据下界（SGC-ELBO），其中包括（a）通过RL最大化子目标条件的回报，以及（b）最小化子目标条件的与参考策略差异。我们从理论上证明SGC-ELBO等同于原始的优化目标，从而确保在不牺牲性能保障的情况下提高学习效率。此外，在现实世界的复杂决策任务中，VSC-RL利用视觉-语言模型自动分解目标为可行的子目标，从而实现高效的学习。在包括具有挑战性的现实世界移动设备控制任务在内的各种基准测试中，VSC-RL显著超越了现有的最先进的视觉-语言代理，实现了优异的性能和显著的学习效率提升。

发布时间: 2/13/2025

查看原文

CREDAL: 数据模型的细致解读

作者: George Fletcher, Olha Nahurna, Matvii Prytula, Julia Stoyanovich

arXiv:2502.07943v1 宣告类型: cross 摘要：数据模型对于数据的诞生以及任何数据驱动系统都是必要的。确实，每一种算法、每一种机器学习模型、每一种统计模型以及每一个数据库都有一个底层的数据模型，没有这个数据模型，系统将难以使用。因此，数据模型是探究数据系统（物质性、社会性、政治性等）条件的一个绝佳场所。为实现这一目标，借鉴文学批评的方法，我们建议以与细读文学作品同样的方式细读数据模型。细读数据模型可以让我们重新关注，例如，数据模型的物质性、血统、技术性、封闭性以及技术系统的设计。虽然从文学理论的角度认识到没有一种正确的阅读方式，但为那些不熟悉细读方法的人提供系统性的指导仍然是至关重要的。这一点对于那些在计算和数据科学领域接受训练的人来说尤其重要，他们往往倾向于忽视数据工作中社会和政治方面的问题。目前尚不存在系统性的方法来阅读数据模型。为填补这一空白，我们提出了CREDAL方法，用于细读数据模型。我们详细描述了CREDAL方法的迭代开发过程，并展示了对CREDAL进行定性评估的结果，证明了其在对数据进行批判性研究中的可用性、有用性和有效性。

发布时间: 2/13/2025

查看原文

培养负责任的人工智能 workforce：在研究生机器学习课程中试点人工智能政策教学模块

作者: James Weichert, Hoda Eldardiry

arXiv:2502.07931v1 Announce Type: cross 摘要：随着人工智能（AI）技术逐渐渗透到各个领域——从医疗保健到教育——消费者、研究人员和政策制定者越来越多地关注AI的监管问题。因此，可以合理地预期，“伦理”或“负责任”的AI原则的遵守以及法律法规的遵守将在AI发展中发挥越来越重要的作用。然而，到目前为止，传统的计算机科学课程在准备学生应对这些挑战方面能力有限。为此，我们探索了如何将与AI伦理和AI政策相关的新的教育内容整合到伦理和技术重点的课程中。本文描述了一个在2024年试点于研究生级入门机器学习课程中的两节课“AI政策模块”。该模块包括一个课堂互动学习游戏，并使用学生讲座前后调查的数据进行评价，同时讨论了教学动机和考虑因素。我们发现该模块成功地吸引了以技术为导向的学生关注AI政策，提高了学生对各种AI技术的社交影响的认识，并激发了学生在AI监管领域的兴趣。

发布时间: 2/13/2025

查看原文

NDAI 协议

作者: Matthew Stephenson, Andrew Miller, Xyn Sun, Bhargav Annem, Rohan Parikh

arXiv:2502.07924v1 宣告类型：交叉摘要：我们研究了创新经济学中的一个基本挑战：发明者必须披露新想法的细节以获得补偿或资金，但这种披露会带来被侵犯的风险。我们在一种威胁着“掠夺”的情境下探讨了发明者（卖家）和投资者（买家）在信息产品上的讨价还价模型。在古典设定中，卖家为了避免被误用而隐瞒披露，导致了低效率。我们展示了可信执行环境（TEE）与AI代理的结合如何缓解甚至完全消除这种“掠夺”问题。通过将披露和支付决策委托给防篡改程序，卖家可以在不冒被侵犯风险的情况下安全地揭示发明，实现全面披露和事后高效率的转移。即使发明的价值超过了TEE完全保护的阈值，部分披露也比不披露更能改善结果。考虑到实际的AI代理并不完美，我们建模了“代理错误”在支付或披露中的表现，并证明预算上限和接受阈值足以保留大部分效率提升。我们的结果表明，加密或基于硬件的解决方案可以作为“铁杆非竞争性协议（NDA）”，显著缓解Arrow（1962）和Nelson（1959）首次指出的基本披露-侵占悖论。这对促进研发、技术转移和合作具有深远的政策意义。

发布时间: 2/13/2025

查看原文

TransMLA: 多头潜在注意力机制即你所需

作者: Fanxu Meng, Zengwei Yao, Muhan Zhang

arXiv:2502.07864v2 通信类型：跨域摘要：现代大规模语言模型（LLMs）通常在当前硬件上遇到通信瓶颈，而不仅仅是计算约束。多头潜在注意（MLA）通过在键值（KV）层中使用低秩矩阵来应对这一挑战，从而允许压缩的潜在KV状态被缓存。这种方法相对于传统的多头注意力显著减少了KV缓存的大小，从而加快了推理速度。此外，MLA 使用上投影矩阵以增加表达能力，通过增加额外的计算来减少通信开销。尽管 MLA 在 Deepseek V2/V3/R1 中已经证明了其效率和有效性，但许多主要的模型提供商仍然依赖于组查询注意（GQA），并且没有宣布任何计划采用 MLA。在本文中，我们展示了在保持相同的 KV 缓存开销的同时，GQA 总是可以被表示为 MLA，但反之则不成立。为了促进 MLA 的更广泛应用，我们引入了 TransMLA，这是一种后训练方法，可以将广泛使用的基于 GQA 的预训练模型（如 LLaMA、Qwen、Mixtral）转换为基于 MLA 的模型。转换后，模型可以进行额外的训练以增强表达能力，而不增加 KV 缓存的大小。此外，我们计划开发专门针对 MLA 的推理加速技术，以在转换后的模型中保留低延迟，从而能够更有效地蒸馏 Deepseek R1。

发布时间: 2/13/2025

查看原文

ADMN: 一种适应层的多模态网络，用于动态输入噪声和计算资源

作者: Jason Wu, Kang Yang, Lance Kaplan, Mani Srivastava

arXiv:2502.07862v1 宣告类型: cross 摘要：多模态深度学习系统由于多种传感模态提供的鲁棒性，在动态场景中得到了部署。然而，它们在计算资源可用性（由于多租户、设备异构性等）变化和输入质量波动（从传感器数据的损坏、环境噪声等）方面表现不佳。当前的多模态系统采用静态资源分配，在计算资源随时间变化时无法轻松适应。此外，它们依赖于使用固定特征提取器处理传感器数据，无法很好地应对模态质量的变化。因此，高噪声等不提供信息的模态无谓地消耗了本应分配给其他更有质量模态的资源。我们提出了ADMN，一种分层自适应深度多模态网络，能够应对上述两个挑战——它通过调整所有模态中活跃层的总数来满足计算资源约束，并根据模态质量不断重新分配输入模态中的层。我们的评估展示了ADMN可以在不降低与当前最佳网络相当的准确性的情况下，减少高达75%的浮点运算。

发布时间: 2/13/2025

查看原文

平衡KV缓存压缩通过分歧理论

作者: Insu Han, Michael Kapralov, Ekaterina Kochetkova, Kshiteej Sheth, Amir Zandieh

arXiv:2502.07861v1 宣告类型: cross 摘要: 大型语言模型（LLMs）取得了令人印象深刻的成效，但它们的高内存需求给长上下文标记生成带来了挑战。长上下文LLMs的内存复杂性主要源于需要在其KV缓存中存储键-值（KV）嵌入。我们提出了BalanceKV，这是一种基于Banaszczyk向量平衡理论的几何采样过程的KV缓存压缩方法，它引入了由键和值标记的几何结构指导的依赖关系，并提高了精度。BalanceKV在现有方法中提供了既已理论证明又经实验证明的性能改进。

发布时间: 2/13/2025

查看原文