arXiv 论文列表

作者: Iris Ma, Ian Domingo, Alberto Krone-Martins, Pierre Baldi, Cristina V. Lopes

arXiv:2504.12549v1 类型: cross 摘要: 整本书能否从LLM中提取出来？使用Llama 3 70B系列模型以及“前缀提示”提取技术，我们能够从仅仅前500个标记中自回归地重建出一本整本书（爱丽丝梦游仙境），相似度非常高。我们还能够在其他几本书上获得了高的提取率，分段进行。然而，这些成功并不适用于所有书籍。我们展示了书籍的提取率与书籍的流行度相关，因此，很可能在训练数据中存在重复。我们还证实了在指令调整后的Llama 3.1中出现了之前缓解措施的失效，这符合最近的研究（Nasr等人，2025）。进一步的研究发现，这一失效来自于权重的极小一部分，主要集中在下层的变压器块中。我们的结果提供了当前反刍缓解策略限制的证据，并引入了一个框架，用于研究微调如何影响对齐的LLM中原文记忆的检索。

发布时间: 4/18/2025

查看原文

匿名公开公告

作者: Thomas {\AA}gotnes, Rustam Galimullin, Ken Satoh, Satoshi Tojo

arXiv:2504.12546v1 公告类型: cross 摘要: 我们在公输布宣言逻辑的传统中正式化了匿名公共公告的概念。这样的公告可以被视为公共公告（“外部”发布的公告，即$\phi$的公告）和智能体之一发布的公共公告（即$K_a\phi$的公告）之间的中间状态：我们得到的信息不仅包括$\phi$，但不一定是确切的发布者身份。即便这样的公告表面上是匿名的，根据智能体的背景知识，它也可能揭示发布者的身份：如果我在留言板上发布一些内容，这些信息即使我不签上姓名，也可能揭示我是谁。此外，类似于俄罗斯扑克谜题的情况，如果假设发布者的意图是保持匿名，实际上它可能会泄露更多的信息。在这篇论文中，我们首先探讨没有对意图进行假设的情况，在这种情况下，带有匿名公共公告操作符的逻辑可以归约为epistemic逻辑。然后我们探讨假设基本知识中的意图是匿名的情况，这是更复杂和更有趣的情形：从多个方面来看，这归结为“安全”公告的概念（再次类似于俄罗斯扑克谜题）。主要结果包括对关键逻辑语言的正式表达能力和公理完备性结果。

发布时间: 4/18/2025

查看原文

通过大规模 shootings 事件知识获取以驱动智能正义的 AI 工具

作者: Benign John Ihugba, Afsana Nasrin, Ling Wu, Lin Li, Lijun Qian, Xishuang Dong

arXiv:2504.12545v1 类别：交叉学科摘要：大规模枪击事件对公共安全构成了重大挑战，产生了大量无结构的文本数据，阻碍了有效的调查和制定公共政策。尽管形势紧迫，但很少有先前的研究能够有效地自动化从这些事件中提取关键信息，以支持法律和调查工作。本文介绍了第一个通过命名实体识别（NER）技术为大规模枪击事件获取知识而设计的数据集。它专注于识别对于法律和调查工作至关重要的关键实体，例如罪犯、受害者、地点和犯罪工具。NER过程由大型语言模型（LLMs）通过少样本提示驱动，从而有效地从新闻文章、警察报告和社会媒体等多种来源中提取和组织关键信息。在现实世界的大规模枪击事件语料库上的实验结果表明，GPT-4o是大规模枪击事件NER中最有效的模型，实现了最高的宏精确率、宏召回率和宏F1分数。同时，o1-mini表现出竞争性的性能，使其成为复杂度较低的NER任务的资源有效替代方案。还观察到，增加提示的数量可以提高所有模型的性能，但GPT-4o和o1-mini的增益更为显著，突显了它们在少样本学习场景中的优越适应性。

发布时间: 4/18/2025

查看原文

基于决策的AI视觉导航用于心脏超声

作者: Andy Dimnaku, Dominic Yurk, Zhiyuan Gao, Arun Padmanabhan, Mandar Aras, Yaser Abu-Mostafa

arXiv:2504.12535v1 宣传类型: 交叉摘要：心脏超声成像（心电图）广泛用于诊断心脏疾病。然而，获取心电图需要专家超声技师和高质量的超声成像设备，这些设备通常仅在医院中可用。最近，基于AI的导航模型和算法被用来帮助新手超声技师获取必要的标准化心脏视图，以便可视化潜在的疾病病理。这些导航系统通常依赖于方向指引来预测超声探头所需的旋转。本文展示了一种新颖的AI导航系统，该系统建立在一种识别心脏下腔静脉（IVC）的决策模型之上。该决策模型使用心脏超声视频进行离线训练，并采用二元分类来确定给定超声视频中是否存在IVC。底层模型整合了一种新颖的定位算法，该算法利用学习到的特征表示实时标注IVC的空间位置。我们的模型在传统高质量医院超声视频上展示出强大的定位性能，并且在来自更实惠的Butterfly iQ便携式超声设备的低质量超声视频上展示了令人印象深刻的零样本性能。这一能力促进了超声诊断的扩展超越医院环境。目前，该指导系统正在进行临床试验，并可在Butterfly iQ应用程序上使用。

发布时间: 4/18/2025

查看原文

通过方差实现泛化：噪声如何塑造扩散模型的归纳偏置

作者: John J. Vastola

arXiv:2504.12532v1 宣称类型: cross 摘要: 扩散模型如何泛化到训练集之外尚不清楚，这在两个事实面前显得更为神秘：通常用于训练扩散模型的目标函数（去噪评分匹配）的最优解是训练分布的评分函数；而通常用于学习评分函数的网络足够表达能力强，可以高精度地学习到这一评分函数。我们认为，去噪评分匹配目标函数的一个特定特征——其目标不仅不是训练分布的评分函数，而是一个期望上与之相等的噪声量——对扩散模型是否以及在多大程度上泛化产生了重要影响。在这篇论文中，我们发展了一个数学理论，部分解释了这种“通过方差泛化”现象。我们的理论分析利用了受物理启发的路径积分方法来计算一些典型的欠参数化和过参数化扩散模型通常学习到的分布。我们发现，扩散模型实际上学习到的用于采样的分布与训练分布相似，但填补了“缺口”，这种归纳偏见的原因是训练过程中使用的噪声目标的协方差结构。我们还分析了这种归纳偏见与特征相关归纳偏见的相互作用。

发布时间: 4/18/2025

查看原文

MOM：内存高效卸载mini序列推理在长上下文语言模型中的应用

作者: Junyang Zhang, Tianyi Zhu, Cheng Luo, Anima Anandkumar

arXiv:2504.12526v1 类型：交叉领域摘要：长上下文语言模型表现优异，但在推理过程中由于高GPU内存需求而难以部署。我们提出了一种名为Memory-efficient Offloaded Mini-sequence Inference (MOM)的方法，该方法将关键层划分为更小的“mini-sequence”，并与KV缓存卸载无缝集成。在各种Llama、Qwen和Mistral模型上的实验表明，MOM将平均峰值内存使用量降低了超过50%。在单个A100 80GB GPU上，MOM将最大上下文长度从155k增加到455k个标记，同时保持输出一致且不影响准确性。由于计算开销极小且具有高效的最后一层处理，MOM还维持了高度竞争力的吞吐量。与传统的分块预填充方法相比，MOM实现了35%更大的上下文长度扩展。更重要的是，我们的方法大幅减少了预填充内存消耗，消除了推理过程中长久以来的主要内存瓶颈。这一突破性进展从根本上改变了研究重点，将未来的努力从预填充阶段的优化转向提高解码阶段残差KV缓存效率。

发布时间: 4/18/2025

查看原文

记忆 vs. 推理：用新知识更新大语言模型

作者: Aochong Oliver Li, Tanya Goyal

arXiv:2504.12523v1 更新类型: 横向摘要：大型语言模型（LLMs）在其参数中编码了大量的预训练知识，但随着现实世界信息的变化进行更新仍然是一项挑战。现有的方法和基准主要针对实体替换，未能捕捉到复杂现实世界动态的全部范围。在本文中，我们引入了Knowledge Update Playground (KUP)，这是一种自动管道，用于模拟反映在证据语料库中的实际知识更新。KUP的评估框架包括直接和间接探针，用于测试对更新事实的记忆以及对其的推理，以评估任何更新学习方法。接下来，我们提出了一种名为memory conditioned training (MCT)的轻量级方法，在训练过程中将更新语料库中的标记条件化为自动生成的“记忆”标记。我们的策略鼓励在推理过程中展示和推理新增的记忆知识。我们在两个强大的LLM上进行的结果表明，(1) KUP基准极具挑战性，最佳CPT模型在间接探针（推理）设置下得分低于2%，(2) MCT训练明显优于先前的继续预训练（CPT）基线，直接探针（记忆）结果提高了最多25.4%。

发布时间: 4/18/2025

查看原文

评估大型语言模型生成内容的多样性和质量

作者: Alexander Shypula, Shuo Li, Botong Zhang, Vishakh Padmakumar, Kayo Yin, Osbert Bastani

arXiv:2504.12522v1 宣告类型: cross 摘要: 近期研究表明，包括基于人类偏好的强化学习（RLHF）方法（如PPO和GRPO），以及替代方法DPO在内的偏好调优技术会减少多样性，而在需要多样化输出的应用中广泛部署的模型面临这一困境。为解决这一问题，我们提出了一种测量有效语义多样性的框架——即满足质量阈值的输出之间的多样性——更准确地反映了大型语言模型（LLMs）的实际效用。通过不需要人类干预的开放任务，我们得到一些反直观的结果：尽管偏好调优模型，尤其是通过RL训练的模型显示出减少的词汇和句法多样性，但从总体上它们产生的有效语义多样性大于SFT或基础模型，不是通过增加高质量输出之间的多样性，而是通过生成更多的高质量输出。我们发现偏好调优减少了句法多样性同时保留了语义多样性——揭示了形式多样性和内容多样性的区别，而传统指标往往忽视了这一点。进一步的分析还表明，较小的模型在固定采样预算下始终更具参数效率地生成独特的内容，从而提供了模型规模与多样性之间关系的见解。这些发现对于需要多样且高质量输出的应用具有重要的意义，从创意辅助到合成数据生成均有涉及。

发布时间: 4/18/2025

查看原文

AdaVid：自适应视频-语言预训练

作者: Chaitanya Patel, Juan Carlos Niebles, Ehsan Adeli

arXiv:2504.12513v1 Announce Type: cross 摘要：对比视频-语言预训练已经在学习丰富且鲁棒的视频表示方面取得了巨大的成功。然而，由于这些视频编码器的高计算需求，要在计算资源受限的边缘设备上部署它们仍然具有挑战性。此外，现有的模型通常仅被训练为处理短视频片段，通常只限于4到64帧。在这篇论文中，我们引入了AdaVid，这是一种灵活的架构框架，旨在学习高效的视频编码器，可以根据可用资源动态调整其计算足迹。AdaVid的核心是一个由Matryoshka Representation Learning启发的自适应变换器块，这使得模型能够在推理时调整其隐藏嵌入维度。我们显示，使用大型Ego4D数据集上的视频-叙述对训练的AdaVid-EgoVLP，在仅使用一半计算资源的情况下，可以与标准EgoVLP在短视频-语言基准上达到相同的性能，并且在提供相同计算资源时甚至优于EgoVLP。我们还进一步探索了在具有挑战性的Diving48分类基准上帧数和计算之间的权衡，显示AdaVid使得使用更多帧而不超出计算限制成为可能。为了处理更长的视频，我们还提出了一种轻量级的分层网络，该网络聚合短片段特征，在多个长视频基准上实现了计算效率和准确性的良好平衡。

发布时间: 4/18/2025

查看原文

多模态LLM增强推理的可解释视觉感知分析

作者: Shravan Chaudhari, Trilokya Akula, Yoon Kim, Tom Blake

arXiv:2504.12511v1 Announce Type: cross 摘要：本文推进了人类计算机交互（HCI）、心理学和认知科学领域中人工智能增强推理的研究，重点关注视觉感知这一关键任务。具体而言，我们研究了多模态大型语言模型（MLLMs）在该领域的适用性。为了实现这一目标，我们利用心理学和认知科学中关于人类视觉感知复杂性的建立原则和解释。我们将这些原则作为指导MLLMs比较和解释视觉内容的基础。我们的研究旨在在与视觉感知相关的各种解释原则下评估MLLMs的表现。不同于最近主要使用高级深度学习模型来预测视觉内容的复杂性指标的方法，我们的工作并不旨在开发一个新的预测模型。相反，我们提出了一种新的无标注分析框架，用于评估MLLMs作为HCI任务的认知辅助工具的实用性，视觉感知作为案例研究。主要目标是为量化和评估MLLMs在提高人类推理能力和揭示现有由人类标注的感知数据集中的偏差方面的可解释性提供一个有原则的框架。

发布时间: 4/18/2025

查看原文