arXiv 论文列表

RadVLM：医学影像多任务对话视觉语言模型

作者: Nicolas Deperrois, Hidetoshi Matsuo, Samuel Ruip\'erez-Campillo, Moritz Vandenhirtz, Sonia Laguna, Alain Ryser, Koji Fujimoto, Mizuho Nishio, Thomas M. Sutter, Julia E. Vogt, Jonas Kluckert, Thomas Frauenfelder, Christian Bl\"uthgen, Farhad Nooralahzadeh, Michael Krauthammer

arXiv:2502.03333v1 交叉公告类型：摘要：胸部X光片（CXR）的广泛应用与放射科医生短缺相结合，推动了自动CXR分析和AI辅助报告的兴趣增长。虽然现有的视觉-语言模型（VLMs）在报告生成或异常检测等特定任务上显示出前景，但它们通常缺乏交互式诊断能力的支持。在这项工作中，我们提出了RadVLM，这是一个专为CXR解释设计的小型多任务对话基础模型。为此，我们收集了一个包含超过100万张图像-指令对的大规模指令数据集，这些指令对包含了单轮任务（如报告生成、异常分类和视觉映射）和多轮多任务对话交互。在对这一指令数据集进行微调后，我们在多种任务上评估了RadVLM，并与重新实现的基线VLMs进行了比较。我们的结果显示，RadVLM在对话能力和视觉映射方面达到了最佳性能，同时在其他放射学任务上保持竞争力。进一步的消融研究强调了在多个任务上联合训练的好处，特别是在标注数据有限的情况下。综合来看，这些发现突显了RadVLM作为临床相关AI助理的潜力，它可以提供结构化的CXR解释和对话能力，以支持更加高效和易于访问的诊断工作流程。

发布时间: 2/6/2025

查看原文

可控的GUI探索

作者: Aryan Garg, Yue Jiang, Antti Oulasvirta

arXiv:2502.03330v1 宣告类型: cross 摘要: 在界面设计的早期阶段，设计师需要生成多个草图以探索设计空间。目前的设计工具往往无法支持这一关键阶段，因为它们坚持规定过多不必要的细节。尽管生成式人工智能的最新进展带来了解决这一问题的希望，但在实践中它们却失败了，因为通过提示表达松散的想法是不切实际的。在本文中，我们提出了一种基于扩散的方法来生成低努力的界面草图。它通过三种类型输入的灵活控制来打破常规：A) 提示，B) 粗略草图，和 C) 视觉流。设计师可以根据需要提供任意组合的这些输入，无论其详细程度如何，都将获得多样化的低质量解决方案集合。独特的益处在于，通过很少的输入规定，可以快速探索非常大的设计空间。我们展示了各种输入规定的定性结果。此外，我们演示了我们的模型比其他模型更准确地符合这些输入规定。

发布时间: 2/6/2025

查看原文

ECM：解释大型语言模型中上下文学习和链式思考 emergence 的统一电子电路模型

作者: Qiguang Chen, Libo Qin, Jinhao Liu, Dengyun Peng, Jiaqi Wang, Mengkang Hu, Zhi Chen, Wanxiang Che, Ting Liu

arXiv:2502.03325v1 类型: cross 摘要: 近年来，大型语言模型（LLMs）的发展在各种应用中取得了显著的成功，其中最显著的是出现了一系列新兴能力，特别是在上下文内学习（ICL）和推理链（CoT）领域。为了更好地理解并控制模型的效果，许多研究已经开始探讨这些现象的底层原因及其对任务结果的影响。然而，现有的解释框架主要集中在独立地分离和解释ICL和CoT，这导致了对其联合影响的不完整理解。为了解决这一问题，我们提出了电子电路模型（ECM），该模型为开发可扩展的学习策略和提高AI生成内容的管理提供了基础。具体而言，ECM 将模型行为类比为电子电路：ICL 被代表为语义磁场，根据法拉第电磁感应定律提供附加电压，而 CoT 被建模为一系列电阻，根据欧姆定律限制模型输出表现。实验结果表明，ECM 有效地预测和解释了不同提示策略下的LLM表现。此外，我们应用ECM 对国际信息学奥林匹克竞赛（IOI）和国际数学奥林匹克竞赛（IMO）等一系列任务的高级推理策略进行了优化，达到与近80%顶级人类竞争对手相当甚至更好的性能。

发布时间: 2/6/2025

查看原文

使用合成数据生成进行分布外检测

作者: Momin Abbas, Muneeza Azmat, Raya Horesh, Mikhail Yurochkin

arXiv:2502.03323v1 宣传类型：跨领域摘要：区分分布内（In-Distribution, InD）和分布外（Out-of-Distribution, OOD）输入对于分类系统可靠部署至关重要。然而，OOD数据通常不可用或难以收集，这给准确的OOD检测带来了重大挑战。在本文中，我们提出了一种方法，利用大型语言模型（LLMs）的生成能力创建高质量的OOD代理，从而消除对外部OOD数据源的依赖。我们研究了该方法在经典文本分类任务（如毒性检测和情感分类）以及LLM开发和部署中的分类任务（如使用RLHF训练奖励模型和检测对齐失误生成）中的有效性。在九对InD-OOD数据集和各种模型规模上的广泛实验表明，我们的方法显著降低了假阳性率（在某些情况下实现完美零值），同时在分布内任务上的准确性保持较高，性能显著优于基线方法。

发布时间: 2/6/2025

查看原文

使用ChatGPT和基本搜索技术简化形式证明生成模型

作者: Sangjun Han, Taeil Hur, Youngmi Hur, Kathy Sangkyung Lee, Myungyoon Lee, Hyojae Lim

arXiv:2502.03321v1 通知类型: cross 摘要：正式证明生成的挑战历史悠久，但随着现代技术的进步，我们可能终于处于解决实际数学问题的阶段。本文探讨了将ChatGPT与基本搜索技术结合以简化正式证明生成的方法，特别关注miniF2F数据集。我们展示了如何通过将类似于ChatGPT的大语言模型与形式语言Lean相结合，后者还具有可验证的优势，来提高正式证明生成的效率和可访问性。尽管非常简单，我们表现最好的基于Lean的模型在所有已知基准中的通过率达到了31.15%。我们将实验扩展到包括其他数据集，并使用了不同的语言模型，展示了我们的模型在不同环境中的可比性能，从而使我们能够对结果进行更细致的分析。我们的发现为AI辅助形式证明生成提供了见解，暗示了形式数学证明未来研究的一个有前景的方向。

发布时间: 2/6/2025

查看原文

和谐在散度之中：向着快速、准确且内存高效的小样本学习大模型微调

作者: Qitao Tan, Jun Liu, Zheng Zhan, Caiwei Ding, Yanzhi Wang, Jin Lu, Geng Yuan

arXiv:2502.03304v1 分类: cross 摘要: 大型语言模型（LLMs）在各种任务中表现出色，但标准的一阶（FO）微调需要大量内存，显著限制了其实用部署。最近，零阶（ZO）优化作为一种内存高效的训练范式脱颖而出，避免了反向传播，并仅依赖于前向传播来估计梯度，使其在资源受限的场景中颇具吸引力。然而，ZO方法在收敛速度和准确性上远落后于FO方法。为了弥合这一差距，我们引入了一种新颖的逐层差异分析，揭示了FO和ZO优化不同的更新模式。基于这一发现，我们提出了\textbf{Di}vergence-driven \textbf{Z}eroth-\textbf{O}rder (\textbf{DiZO})优化。DiZO通过将投影整合到ZO更新中，进行逐层差异驱动的自适应，生成精确按层次个体优化需求缩放的多样化幅度的更新。我们的结果表明，DiZO在不牺牲吞吐量的情况下显著减少了收敛所需的迭代次数，在各种数据集上将训练GPU小时数减少了高达48%。此外，DiZO在调优RoBERTa-large、OPT系列和Llama系列模型的下游任务上始终优于代表性的ZO基准方法，并在某些情况下甚至超过了记忆需求较大的FO微调。

发布时间: 2/6/2025

查看原文

MeDiSumQA：从出院报告中生成患者导向的问题-答案生成

作者: Amin Dada, Osman Alperen Koras, Marie Bauer, Amanda Butler, Kaleb E. Smith, Jens Kleesiek, Julian Friedrich

arXiv:2502.03298v1 宣告类型: cross 摘要: 虽然增加患者对医疗文档的访问可以提高医疗服务的质量，但这一好处受到了患者健康素养水平和复杂医疗术语的限制。大型语言模型（LLMs）通过简化医疗信息提供了解决方案。然而，由于缺乏标准化的评估资源，对LLMs进行安全且患者友好的文本生成评估是困难的。为填补这一空白，我们开发了MeDiSumQA。MeDiSumQA是从MIMIC-IV出院总结通过自动化管道创建的数据集，该管道结合了基于LLM的问题-答案生成与人工质量检查。我们使用此数据集评估各种面向患者的问答任务。我们的研究发现表明，通用用途的LLMs通常会超越医学适应型模型，而自动化指标与人类判断相关。通过在PhysioNet上发布MeDiSumQA，我们旨在推进LLMs的发展，以增强患者的理解并最终改善护理结果。

发布时间: 2/6/2025

查看原文

ALPET: 主动少量样本学习在低资源维基百科语言中的引文可靠性检测

作者: Aida Halitaj, Arkaitz Zubiaga

arXiv:2502.03292v1 宣告类型: cross 摘要：引证价值检测（CWD）是指确定文章或集合中哪些句子需要通过引证来验证所提供的信息。这项研究引入了ALPET，这是一种结合主动学习（AL）和模式利用训练（PET）的框架，以增强对数据资源有限的语言的引证价值检测。将ALPET应用于加泰罗尼亚语、巴斯克语和阿尔巴尼亚语的Wikipedia数据集时，其在某些情况下比现有的CCW基线性能更好，减少了超过80%的标记数据量。ALPET在300个标记样本后性能达到平台期，显示出其在大型、标记数据集不常见的情况下，适合低资源场景。虽然特定的主动学习查询策略，如使用K-Means聚类的方法，可以提供优势，但它们的有效性并不是普遍适用的，往往在较小的数据集上只能提供边际增益，特别是与随机抽样相比。这表明，尽管随机抽样简单，但它在受限制资源环境中仍然是CWD的强基线。总体而言，ALPET能够使用较少的标记样本实现高性能，使其成为在低资源语言环境中增强在线内容可验证性的有前途的工具。

发布时间: 2/6/2025

查看原文

时空映射工具用于.spike神经网络

作者: Sherif Eissa, Sander Stuijk, Floran De Putter, Andrea Nardi-Dei, Federico Corradi, Henk Corporaal

arXiv:2502.03287v1 类型：交叉摘要：脉冲神经网络（SNNs）是有前景的仿生第三代神经网络。最近的研究已经训练出了与人工神经网络（ANNs）在准确度上相当的深度SNN模型。尽管SNN的事件驱动和稀疏特性显示了比ANNs更高效的能源计算潜力，但SNN神经元具有随着时间演化的内部状态，这可能会增加数据移动和存储需求，从而使其在能量效率方面相对于ANNs失去优势。本文探讨了拥有神经元状态的能量影响，以及这些影响如何受到所选的映射到现实硬件架构的内存层次结构的影响。因此，我们开发了STEMS，一种SNN的映射设计空间探索工具。STEMS模型了SNN的状态行为，并探索了层内和层间映射优化，以最小化数据移动，同时考虑了空间和时间维度的SNN。使用STEMS，我们在两个基于事件的视觉SNN基准上展示了高达12倍的片外数据移动减少和5倍的能效提升（在层内优化基础上）。最后，神经元状态并不需要所有SNN层。通过优化一个基准的神经元状态，我们展示了神经元状态减少20倍且在无准确率损失的情况下性能提升了1.4倍。

发布时间: 2/6/2025

查看原文

Token Assorted：混合潜在-token 和文本-token 以改进语言模型推理

作者: DiJia Su, Hanlin Zhu, Yingchen Xu, Jiantao Jiao, Yuandong Tian, Qinqing Zheng

arXiv:2502.03275v1 类型:交叉摘要:在训练数据中明确通过文本标记列出逐步思维过程的情况下，大型语言模型（LLMs）在推理和规划方面表现出色。然而，这会导致长度较长的输入，其中许多单词支持文本连贯性而不是核心推理信息，处理这些输入会消耗大量的计算资源。在本文中，我们提出了一种混合的推理过程表示法，其中我们部分地使用由VQ-VAE生成的潜在离散标记抽象掉最初的推理步骤，显著减少了推理轨迹的长度。我们探索了潜在轨迹抽象的两种应用场景：1) 从头开始训练模型解决钥匙查找迷宫问题；2) 使用扩展词汇表包括未见过的潜在标记对这种混合数据进行LLMs微调，包括逻辑和数学推理问题。为了促进有效的学习，我们介绍了一种简单的训练程序，将潜在标记和文本标记随机混合，这使得模型能够快速适应新的潜在标记。我们的方法在各种基准测试中始终优于基线方法。

发布时间: 2/6/2025

查看原文