arXiv 论文列表

作者: Edward Ellis, Andrew Bulpitt, Nasim Parsa, Michael F Byrne, Sharib Ali

arXiv:2502.02489v1 声波类型: cross 摘要：超声波（US）成像因其无创性和安全性而在临床中极为宝贵。然而，解读US图像具有挑战性，需要大量的专业知识和时间，并且经常会出现错误。深度学习提供了诸如分割之类的辅助解决方案。监督方法依赖于大量高质量且一致标注的训练数据集，这在收集上具有挑战性。此外，这些方法在处理分布外数据时往往会表现不佳，限制了其在临床中的实用性。自我监督学习（SSL）已作为一种有前途的替代方案出现，它利用未标注的数据来增强模型的性能和泛化能力。我们介绍了一种针对B模式US图像的对比SSL方法，结合了一种新颖的关系对比损失（RCL）。RCL通过可学习的度量将正样本和负样本对区分开来，从而鼓励学习不同的特征。此外，我们还提出了空间和频率基础的增强策略，用于US图像的表示学习。我们的方法在三个公开的乳腺US数据集中相比传统监督分割方法取得了显著的性能提升，尤其是在数据受限的情况下。在Dice相似度指标上，我们的方法在BUSI数据集的20%和50%部分分别提高了4%和5%，在BrEaST数据集的20%和50%部分分别提高了近6%和9%，在UDIAT数据集的20%和50%部分分别提高了6.4%和3.7%。此外，我们展示了在分布外UDIAT数据集上的更强泛化能力，使用20%和50%的BUSI和BrEaST训练数据，相较于监督基线分别提升了20.6%和13.6%。我们的研究强调了领域启发式SSL可以在数据受限条件下提高US分割的性能。

发布时间: 2/5/2025

查看原文

留意差距：评估通用基础模型和病理学基础模型的补丁嵌入在细胞分割和分类中的性能

作者: Valentina Vadori, Antonella Peruffo, Jean-Marie Gra\"ic, Livio Finos, Enrico Grisan

arXiv:2502.02471v1 公告类型: cross 摘要：近期基础模型的进步已经改变了计算机视觉领域，在包括数字病理组织学在内的多个领域推动了显著的性能改进。然而，针对专门任务如细胞分析，领域特定的病理组织学基础模型相较于通用基础模型的优势仍然有待探索。本研究通过分析应用于细胞实例分割和分类的多层斑块嵌入，研究了这两种类别之间的表示学习差距。我们实现了一个编码-解码架构，解码器保持一致，而编码器包含卷积、视觉变压器（ViT）以及混合编码器，这些编码器在ImageNet-22K或LVD-142M上进行了预训练，代表了通用基础模型。我们还将这些编码器与最近发布的UNI、Virchow2和Prov-GigaPath基础模型中训练在从数十万张病理组织学全切片图像中提取的斑块上的视觉变压器编码器进行了比较。解码器通过跳连将来自不同编码器深度的斑块嵌入结合，生成语义和距离图。随后通过后处理生成实例分割掩码，其中每个标签对应一个单独的细胞，并进行细胞类型分类。在训练过程中，所有编码器保持冻结状态，以评估它们的预训练特征提取能力。利用PanNuke和CoNIC病理组织学数据集，以及最近引入的用于大脑细胞架构研究的Nissl染色CytoDArk0数据集，我们评估了实例级检测、分割准确性和细胞类型分类。本研究提供了通用基础模型与病理组织学基础模型之间比较优势和限制的见解，为细胞焦点病理组织学和大脑细胞架构分析流程中的模型选择提供指导。

发布时间: 2/5/2025

查看原文

模块化训练的神经网络有助于可解释性

作者: Satvik Golechha, Maheep Chaudhary, Joan Velja, Alessandro Abate, Nandi Schoots

arXiv:2502.02470v1 Announce Type: cross 摘要：通过可聚类性提高神经网络可解释性的方法之一是将模型拆分为可独立研究的不相交聚类。我们定义了一个聚类性度量，并通过谱图聚类表明预训练模型形成了高度交织的聚类。因此，我们使用一种“聚类性损失”函数训练模型，该函数鼓励形成不相互作用的聚类。通过自动化可解释性技术，我们展示了我们的方法可以帮助训练更具模块性的模型，这些模型可以学习不同的、不相交的和更小的电路。我们研究了在MNIST和CIFAR上训练的CNN、在模块化加法上训练的小型变压器，以及语言模型。我们的方法为训练学习更简单函数且更容易解释的神经网络提供了有希望的方向。

发布时间: 2/5/2025

查看原文

模型人类学习者：引导教学设计的计算模型

作者: Christopher J. MacLellan

arXiv:2502.02456v1 宣传类型: cross 摘要: 教学设计师面临着众多的设计选择，这使他们难以确定最有效的干预措施。为了解决这个问题，我提出了模型人类学习者这一概念，这是一种统一的学习计算模型，可以辅助设计师评估候选的干预措施。本文介绍了这一概念的第一个成功示范，展示了计算模型可以准确预测两个由人类进行的A/B测试实验的结果——一个是测试问题排序干预措施，另一个是测试项目设计干预措施。它还展示了这种模型可以在不需要人类数据的情况下生成学习曲线，并提供有关为何某种教学干预措施有效性的理论见解。这些发现为未来将认知和学习理论集成到模型人类学习者中，以支持跨不同任务和干预措施的教学设计奠定了基础。

发布时间: 2/5/2025

查看原文

生成心理词汇方法在大型语言模型中构建价值体系

作者: Haoran Ye, Tianze Zhang, Yuhang Xie, Liyuan Zhang, Yuanyi Ren, Xin Zhang, Guojie Song

arXiv:2502.02444v1 声明类型: cross 摘要: 原则是个体和集体感知、认知和行为的核心驱动力。价值体系，如斯瓦茨的基本人类价值观理论，界定了这些价值观之间的层级和相互作用，使跨学科研究决策和社会动态成为可能。近年来，大型语言模型（LLMs）的兴起引发了对其难以捉摸的内在价值观的担忧。尽管在评估、理解和对齐LLM价值观方面付出了越来越多的努力，但心理学依据的LLM价值体系仍处于未被充分探索的状态。本研究通过引入生成性心理语义方法（GPLA），填补了这一空白，GPLA是一种可扩展、可适应且理论依据的方法，用于构建价值体系。利用GPLA，我们提出了一种心理学依据的五因素价值体系，适用于LLM。为了系统验证，我们提出了三项基准任务，将心理学原则与前沿AI优先事项结合在一起。研究表明，所提出的价值体系达到了标准的心理学标准，更好地捕捉了LLM的价值，提高了LLM安全预测的精度，并增强了LLM的对齐性，相比经典的斯瓦茨价值观，表现更佳。

发布时间: 2/5/2025

查看原文

LLMER：使用大型语言模型生成JSON数据构建交互式扩展现实世界

作者: Jiangong Chen, Xiaoyi Wu, Tian Lan, Bin Li

arXiv:2502.02441v1 类型: cross 摘要：将大型语言模型（LLMs）如GPT-4与扩展现实（XR）技术相结合，有可能构建出真正沉浸式的XR环境，这些环境通过自然语言与人类用户互动，例如从音频输入生成和动画化3D场景。然而，XR环境的复杂性使得从海量的XR艺术品中准确提取相关上下文数据和场景/对象参数变得困难。这不仅导致使用按使用付费模型的成本增加，还增加了生成错误的风险。此外，现有侧重于编码脚本生成的方法往往容易出现生成错误，导致不准确或无效的脚本、应用程序崩溃，并最终导致用户体验下降。为了克服这些挑战，我们引入了LLMER，这是一种新颖的框架，通过LLMs生成的JSON数据创建互动的XR世界。与先前侧重于编码脚本生成的方法不同，LLMER将自然语言输入转换为JSON数据，显著减少了应用程序崩溃和处理延迟的可能性。该框架采用多阶段策略，仅提供适应用户请求的相关上下文信息，并设计有针对各种XR任务的多个模块。我们的初步用户研究显示了该系统的效果，与最先进的方法相比，该系统在消耗的令牌数量上减少了80%以上，任务完成时间减少了约60%。用户反馈的分析还揭示了一系列进一步优化的方向。

发布时间: 2/5/2025

查看原文

医疗多模态模型窃取攻击通过对抗域对齐

作者: Yaling Shen, Zhixiong Zhuang, Kun Yuan, Maria-Irina Nicolae, Nassir Navab, Nicolas Padoy, Mario Fritz

arXiv:2502.02438v1 交叉类型: cross 摘要：医学多模态大语言模型（MLLMs）已成为医疗系统的重要组成部分，帮助医疗人员进行决策和结果分析。用于放射学报告生成的模型能够解释医学图像，从而减轻放射科医生的工作负担。由于医学数据稀缺且受隐私法规保护，医学MLLMs代表了有价值的知识产权。然而，这些资产可能存在模型盗窃的风险，在这种攻击中，攻击者希望通过黑盒访问复制其功能。到目前为止，医学领域的模型盗窃主要集中在分类；然而，现有的攻击对MLLMs无效。在本文中，我们介绍了对抗领域对齐（ADA-STEAL），这是首个针对医学MLLMs的盗窃攻击。ADA-STEAL依赖于自然图像，这些图像公开且广泛可用，而非医学对应的图像。我们展示了通过对抗噪声的数据增强足以克服自然图像与受害MLLM特定领域数据分布之间的数据分布差距。在IU X-RAY和MIMIC-CXR放射学数据集上的实验证明，对抗领域对齐使攻击者能够在不接触医学数据的情况下窃取医学MLLM。

发布时间: 2/5/2025

查看原文

Schedule-Free优化器、AdEMAMix及其加速SGD变种之间的联系

作者: Depen Morwani, Nikhil Vyas, Hanlin Zhang, Sham Kakade

arXiv:2502.02431v1 类型: cross 摘要: 深度学习优化领域的 Recent 进展引入了新的算法，如 Schedule-Free 优化器、AdEMAMix、MARS 和 Lion，这些算法修改了传统的动量机制。另一条工作的线则是通过将动量系数与当前梯度的权重解耦，在噪声主导的环境下的随机梯度下降（SGD）实现了理论上的加速。在本文中，我们建立了这两条工作线之间的明确联系。我们通过在150M语言建模任务上的初步实验验证了我们的理论发现。我们发现，AdEMAMix，最为接近加速版本的随机梯度下降算法，表现出更优的性能。基于这些见解，我们引入了 AdEMAMix 的一个修改版本，称为 Simplified-AdEMAMix，在大批次和小批次设置下都保持与 AdEMAMix 相同的性能，同时消除了需要两个不同动量项的需求。Simplified-AdEMAMix 的代码可在仓库 https://github.com/DepenM/Simplified-AdEMAMix/ 上获取。

发布时间: 2/5/2025

查看原文

大型语言模型的激活指导合并

作者: Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan

arXiv:2502.02421v1 类别：交叉学科摘要: 模型融合是一种将多个细调的大语言模型（LLMs）的参数和嵌入结合起来的方法，它为提升各种任务的模型性能提供了有希望的方法，同时保持计算效率。本文介绍了激活信息融合（Activation-Informed Merging，AIM），这是一种将LLMs的激活空间信息整合到融合过程中的技术，以提高性能和鲁棒性。AIM 设计为一种灵活的补充解决方案，适用于任何现有的融合方法。它旨在保留基础模型的关键权重，借鉴了持续学习（CL）和模型压缩的原则。利用一项任务无关的校准集，AIM 在融合过程中优先选择关键权重。我们通过实验证明，AIM 显著提高了多个基准模型的性能。我们的研究表明，考虑激活空间的信息可以在LLMs的模型融合策略中提供显著的改进，基准性能提高多达40%。

发布时间: 2/5/2025

查看原文

LV-XAttn: 分布式跨注意力机制用于多模态大型语言模型中的长视觉输入

作者: Tzu-Tao Chang, Shivaram Venkataraman

arXiv:2502.02406v1 Announce Type: cross 摘要：交叉注意力在多模态大语言模型（MLLMs）中广泛采用，用于将视觉信息整合到语言骨干中。然而，在处理大量视觉输入的应用中，如视频理解，交叉注意力层中的大量视觉标记处理会导致高内存需求，并且通常需要在多个GPU之间进行分布式计算。现有的分布式注意力机制面临显著的通信开销，使得交叉注意力层成为MLLMs高效训练和推理过程中的关键瓶颈。为了解决这个问题，我们提出了一种具有最小通信开销的分布式精确交叉注意力机制LV-XAttn。我们观察到，在涉及大量视觉输入的应用中，查询块的大小通常远小于键值块的大小。因此，在LV-XAttn中，我们在每个GPU上保留大型的键值块，并在GPU之间交换较小的查询块。我们还引入了一种高效的激活重新计算技术，以支持更长的视觉上下文。我们在理论上分析了LV-XAttn的通信优势，并证明它可以适用于各种模型。我们的评估使用mPLUG-Owl3和OpenFlamingo模型发现，LV-XAttn相对于现有方法可以实现高达5.58倍的端到端加速。

发布时间: 2/5/2025

查看原文