arXiv 论文列表

BELL: 大型语言模型可解释性基准测试

作者: Syed Quiser Ahmed, Bharathi Vokkaliga Ganesh, Jagadish Babu P, Karthick Selvaraj, ReddySiva Naga Parvathi Devi, Sravya Kappala

arXiv:2504.18572v1 通知类型: 新颖摘要: 大型语言模型在自然语言处理方面展现了令人瞩目的能力，但它们的决策过程往往缺乏透明度。这种不透明性在信任、偏见和模型性能方面引发了重大关切。为了应对这些问题，理解并评估大型语言模型的可解释性至关重要。本文介绍了一种标准化的基准测试技术，即《评估大型语言模型的可解释性基准测试》，旨在评估大型语言模型的可解释性。

发布时间: 4/29/2025

查看原文

层次化和多模态数据的日常生活活动理解

作者: Ghazal Kaviani, Yavuz Yarici, Seulgi Kim, Mohit Prabhushankar, Ghassan AlRegib, Mashhour Solh, Ameya Patil

arXiv:2504.17696v2 宣告类型: replace-cross 摘要：Daily Activity Recordings for Artificial Intelligence（DARai，发音为“Dahr-ree”）是一个多模态、分层注释的数据集，旨在理解现实环境中的人类活动。DARai 包含50名参与者的10个不同环境中的连续编排和非编排的活动记录，总共收集了超过200小时的数据，包括多个摄像头视角、深度和雷达传感器、可穿戴惯性测量单元（IMU）、肌电图（EMG）、足底压力传感器、生物监测传感器以及眼动追踪器的数据。为了捕捉人类活动的复杂性，DARai 在三个层次上进行了注释：(i) 高级活动（L1）是独立的任务，(ii) 低级动作（L2）是不同活动之间共享的模式，(iii) 细粒度的操作（L3）详细描述了动作的精确执行步骤。数据集的注释和记录设计使得22.7%的L2 动作在L1 活动之间共享，14.2%的L3 操作在L2 动作之间共享。DARai 的重叠性和非编排特性允许数据集中存在反事实活动。使用各种机器学习模型的实验展示了DARai 在揭示以人类为中心的应用中的重要挑战方面的价值。具体而言，我们在所有层次的注释级别上进行了单一模态和多模态传感器数据融合的实验，以识别、时间局部化和预测未来行动。为了突出单个传感器的限制，我们还进行了由DARai 的多传感器和反事实活动设计设置所启用的领域变体实验。相关的代码、文档和数据集可以在专门的DARai 网站上获得：https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-artificial-intelligence-and-machine-learning/

发布时间: 4/28/2025

查看原文

基于归纳一致性预测的大型视觉-语言模型预测集的数据驱动校准

作者: Yuanchang Ye, Weiyan Wen

arXiv:2504.17671v2 通知类型: replace-cross 摘要：本文通过Split Conformal Prediction (SCP)框架解决大型视觉-语言模型（LVLM）在视觉问答（VQA）任务中幻觉抑制的关键挑战。尽管LVLM在多模态推理方面表现出色，但它们的输出经常包含高置信度的幻觉内容，这在安全关键应用中存在风险。我们提出了一种模型无关的不确定性量化方法，该方法结合了动态阈值校准和跨模态一致性验证。通过将数据划分为校准集和测试集，该框架计算非一致性分数，以在用户定义的风险水平（$\alpha$）下提供统计保证的预测集。关键创新包括：(1) 严格控制边际覆盖范围，确保经验误差率严格低于$\alpha$；(2) 动态调整预测集的大小与$\alpha$成反比，滤除低置信度输出；(3) 消除了先验分布假设和重新训练要求。在八个LVLM和基准测试（ScienceQA, MMMU）上的评估表明，SCP在所有$\alpha$值下执行理论保证。该框架在不同校准到测试分割比下的性能保持稳定，证明了其在医疗保健、自主系统和其他安全敏感领域实际部署中的稳健性。本工作为多模态AI系统之间的理论可靠性和实际适用性之间的差距提供了桥梁，提供了一种可扩展的幻觉检测和不确定性感知决策解决方案。

发布时间: 4/28/2025

查看原文

PTCL: 部分标签时间递进学习在标签有限的动态图上的应用

作者: Shengtao Zhang, Haokai Zhang, Shiqi Lou, Zicheng Wang, Zinan Zeng, Yilin Wang, Minnan Luo

arXiv:2504.17641v2 宣告类型: replace-cross 摘要：动态节点分类对于建模如金融交易和学术合作等演变系统至关重要。在这些系统中，动态捕获节点信息的变化对于动态节点分类至关重要，通常需要在每个时间戳下所有标签。然而，由于高注释成本和标签不确定性（例如，在欺诈检测中可能出现的模糊或延迟标签），在实际场景中难以收集所有动态标签。相比之下，最终时间戳的标签更容易获得，因为它们依赖于完整的时序模式，并且在许多开放平台上通常会为每个用户维护一个唯一的标签，无需跟踪历史数据。为了弥合这一差距，我们提出了PTCL（Pseudo-label Temporal Curriculum Learning），这是一种针对仅使用最终标签的标签受限的动态节点分类问题的新颖方法。PTCL 引入了：（1）时序解耦架构，分离骨干（学习时间感知表示）和解码器（严格与最终标签对齐），生成伪标签，以及（2）时序课程学习策略，通过使用指数衰减函数分配更高的权重，优先处理靠近最终时间戳的伪标签。我们贡献了一个新的学术数据集（CoOAG），捕捉了动态图中的长期研究兴趣。实证研究在现实场景中展示了PTCL在其他方法中的持续优越性。除了方法论，我们还提出了一种统一框架FLiD（标签受限的动态节点分类框架），包括完整的准备工作流程、训练管道和评估标准，并支持各种模型和数据集。代码可以在 https://github.com/3205914485/FLiD 查看。

发布时间: 4/28/2025

查看原文

关于发展地球物理学基础模型的工作流程、机遇和挑战

作者: Hanlin Sheng, Xinming Wu, Hang Gao, Haibin Di, Sergey Fomel, Jintao Li, Xu Si

arXiv:2504.17384v2 宣告类型: 替换-交叉摘要：基础模型作为人工智能中的主流技术，在近年来的各个领域中显示出巨大的潜力，特别是在处理复杂任务和多模态数据方面。在地球物理领域，尽管基础模型的应用逐渐扩大，但目前缺乏全面的综述来讨论将基础模型与地球物理数据集成的全过程工作流。为弥补这一空白，本文提出了一个完整的框架，系统地探索了将基础模型与地球物理数据结合开发的整个过程。从数据收集和预处理到模型架构选择、预训练策略以及模型部署，我们详细分析了每个阶段的关键技术和方法论。特别是考虑到地球物理数据的多样性和复杂性以及物理一致性约束，我们讨论了针对性的解决方案来应对这些挑战。此外，我们讨论了如何利用基础模型的迁移学习能力来减少对标记数据的依赖，提高计算效率，并将物理约束融入到模型训练中，从而提高物理一致性和可解释性。通过对当前技术景观的全面总结和分析，本文不仅填补了地球物理领域中关于基础模型全流程回顾的空白，还为地球物理数据分析中的基础模型应用提供了宝贵的实践指导，从而推动该领域的创新和进步。

发布时间: 4/28/2025

查看原文

NeuralGrok：通过神经梯度转换加速Grokking

作者: Xinyu Zhou, Simin Fan, Martin Jaggi, Jie Fu

arXiv:2504.17243v2 通知类型: 替换-交叉摘要：Grokking 被提出并广泛研究为一种复杂的现象，在这种现象中，泛化在长时间过拟合后实现。在这项工作中，我们提出了一种名为 NeuralGrok 的新颖梯度方法，该方法学习最优的梯度变换，以加速变压器在算术任务中的泛化。具体而言，NeuralGrok 在基模型的基础上训练了一个辅助模块（例如，一个MLP块）。该模块根据各个梯度分量对泛化的影响动态调节这些分量的影响力，受到双层优化算法的指导。我们的大量实验表明，NeuralGrok 显著加速了泛化，尤其是在具有挑战性的算术任务中。我们还展示了 NeuralGrok 促进更稳定的训练范式，在不断降低模型复杂度的同时，传统正则化方法（如权重衰减）可能会引入大量不稳定性并妨碍泛化。我们进一步利用一个新颖的绝对梯度 entropy（AGE）度量来探讨模型固有复杂性，这是一种解释 NeuralGrok 通过降低模型复杂性有效促进泛化的手段。我们提供了有关 Transformer 模型的 Grokking 现象的重要见解，这鼓励了对控制泛化能力的基本原理的更深入理解。

发布时间: 4/28/2025

查看原文

事后修复：基于神经符号反馈的文本到视频生成改进

作者: Minkyu Choi, S P Sharan, Harsh Goel, Sahil Shah, Sandeep Chinchali

arXiv:2504.17180v2 宣传类型: 替换-交叉摘要：当前的文本到视频（T2V）生成模型由于其能够从文本提示中生成连贯的视频而越来越受欢迎。然而，当处理涉及多个对象或序列事件的较长、更复杂的提示时，这些模型往往难以生成在语义和时间上一致的视频。此外，与训练或微调相关的高昂计算成本使得直接改进变得不切实际。为了解决这些限制，我们提出了NeuS-E，一种新颖的无需训练的视频精炼流水线，该流水线利用神经符号反馈自动增强视频生成，实现了与提示的更好对齐。我们的方法首先通过分析正式的视频表示来推导出神经符号反馈，并指出语义不一致的事件、对象及其相应的帧。然后，这种反馈指导对原始视频的针对性编辑。在开源和专有T2V模型上的广泛实验表明，NeuS-E 通过将近40%显著增强了时间上的和逻辑上的对齐。

发布时间: 4/28/2025

查看原文

医疗保健领域中小语言模型的崛起：一项全面综述

作者: Muskan Garg, Shaina Raza, Shebuti Rayana, Xingyi Liu, Sunghwan Sohn

arXiv:2504.17119v2 宣布类型: replace-cross 摘要：尽管大规模语言模型（LLMs）在医疗保健应用方面取得了显著进展，但由于日益增长的数据隐私担忧和有限的资源；小型语言模型（SLMs）为下一代医疗保健信息化提供了可扩展且临床可行的解决方案，可以在资源受限的环境下实现高效的性能。我们全面的调研呈现了一个分类框架，以识别和分类这些模型，供医疗保健专业人员和信息科学家使用。医疗服务中的SLM贡献时间线为分析模型提供了一个基础框架，涵盖三个维度：NLP任务、利益相关者角色以及照护连续谱。我们提出了一种分类框架，识别从零开始构建模型的基础架构；通过提示、指令微调和推理将SLMs调整到临床精确性；以及通过压缩技术提高可访问性和可持续性。我们主要的目标是为医疗保健专业人员提供一个全面的调研，介绍模型优化领域的最新创新，并为他们提供经过筛选的资源，以支持未来该领域的研究和开发。旨在展示医疗服务中SLM领域的突破性进展，我们展示了面向广泛研究的医疗保健NLP任务的全面实验结果，以突出SLMs在医疗保健领域的变革潜力。更新的存储库已可在Github上获得。

发布时间: 4/28/2025

查看原文

BackSlash：受限速率优化训练大规模语言模型

作者: Jun Wu, Jiangtao Wen, Yuxing Han

arXiv:2504.16968v2 Announce Type: replace-cross 摘要：大型语言模型（LLMs）的快速发展推动了训练完成后参数压缩的广泛研究，但训练过程中参数压缩却较少被探索。本文介绍了一种基于速率-失真优化（RDO）的新颖训练时压缩方法——BackSlash。BackSlash能够在模型准确性和复杂性之间提供灵活的权衡，显著减少参数冗余同时保持性能。在各种架构和任务的实验中证明，BackSlash可以在不损失准确性的前提下减少60% - 90%的内存使用，并且与训练完成后压缩相比提供了显著的压缩增益。此外，BackSlash具有极高的通用性：它利用较小的拉格朗日乘数增强泛化能力，提高模型修剪的鲁棒性（即使在80%的修剪率下仍保持准确性），并能简化网络以加速边缘设备上的推理。

发布时间: 4/28/2025

查看原文

更好的人工智能并不意味着更好的生物学模型

作者: Drew Linsley, Pinyuan Feng, Thomas Serre

arXiv:2504.16940v2 公告类型: 替换-交叉摘要：随着深度神经网络（DNNs）在视觉基准测试上的表现逐渐提高，它们与灵长类动物知觉和神经反应之间的相似性也在增加，这曾引发希望，认为人工智能的进步将产生更好的生物学视觉模型。然而，我们在三个基准测试上显示，随着DNNs达到或超越人类的准确性，这种相似性已经陷入 plateau，甚至在某些情况下有所恶化。这种分歧可能反映了DNN采用的视觉策略与灵长类动物使用的不同。这些发现挑战了人工智能进步自然会转化为神经科学的观点。我们认为，视觉科学必须为自己制定一条道路，发展基于生物视觉系统的算法，而不是优化基于大规模互联网数据集的基准测试。

发布时间: 4/28/2025

查看原文