arXiv 论文列表

作者: Songlin Xu, Hao-Ning Wen, Hongyi Pan, Dallas Dominguez, Dongyin Hu, Xinyu Zhang

arXiv:2502.02780v1 Announce Type: cross 摘要：学生模拟通过与虚拟学生互动来帮助教育者提高教学水平。然而，现有的大多数方法由于两个挑战而忽略了课程材料的调节效应：缺乏细粒度标注的课程材料数据集，以及现有模拟模型在处理极其长的文本数据方面存在限制。为了解决这些挑战，我们首先从N=60名学生中开展了一项为期六周的教育研讨会，使用自建的在线教育系统收集了细粒度数据，该系统记录了学生在时间上与讲义材料互动时的学习行为。其次，我们提出了一种可迁移的迭代反思（TIR）模块，该模块增强了基于提示和基于微调的大语言模型（LLMs），以模拟学习行为。我们的全面实验表明，即使在有限的示范数据下，TIR也能使大语言模型比传统的深度学习模型更准确地进行学生模拟。我们的TIR方法更好地捕捉了教室中学习表现的细粒度动态性和学生之间的相关性，为在线教育开辟了“数字双胞胎”的道路。

发布时间: 2/6/2025

查看原文

3D 基础 AI 模型在头部计算机断层扫描中实现泛化疾病的检测

作者: Weicheng Zhu, Haoxu Huang, Huanze Tang, Rushabh Musthyala, Boyang Yu, Long Chen, Emilio Vega, Thomas O'Donnell, Seena Dehkharghani, Jennifer A. Frontera, Arjun V. Masurkar, Kara Melmed, Narges Razavian

arXiv:2502.02779v1 交叉类型：cross 摘要：头部计算机断层扫描（CT）成像是一种广泛使用的成像技术，具有众多医疗应用，特别是在评估脑部、颅骨和 cerebrovascular 系统的病理方面。由于其快速的图像获取速度、安全性、成本效益和普及性，它通常被视为神经科紧急情况的第一线成像技术。深度学习模型可以促进对广泛疾病的检测。然而，高质量标签和注释的缺乏，尤其是在罕见疾病方面，极大地阻碍了强大模型的发展。为了解决这一挑战，我们引入了 FM-CT：一种用于头部 CT 的基础模型，用于通用疾病的检测，该模型使用半监督学习进行训练。我们的方法利用大型、多样化的包含 361,663 个非对比 3D 头部 CT 扫描的数据集进行预训练，而无需手动注释，使模型能够学习稳健的、可泛化的特征。为了研究半监督学习在头部 CT 中的潜力，我们采用了自蒸馏和掩码图像建模相结合的方法，并将模型构建为三维而非切片级别（二维），以更全面、更高效地利用头部 CT 扫描的结构。模型的下游分类性能通过内部和三个外部数据集进行评估，涵盖分布内（ID）和分布外（OOD）数据。我们的结果显示，半监督基础模型在下游诊断任务中的表现优于从头开始训练的模型以及在稀缺注释数据集上训练的 3D CT 基础模型。这项工作突显了半监督学习在医学成像中的有效性，并为 3D 头部 CT 图像分析设定了新的基准，从而使基于头部 CT 的人工智能诊断得到更广泛的使用。

发布时间: 2/6/2025

查看原文

力和语言的跨模态嵌入以实现自然的人机通信

作者: Ravi Tejwani, Karl Velazquez, John Payne, Paolo Bonato, Harry Asada

arXiv:2502.02772v1 Announce Type: 跨模态摘要：提出了一种将力轮廓和文字嵌入的跨模态方法，以便实现言语和触觉通信的协同协调。当两个人一起搬运一个大而重的物体时，他们通过言语交流各自计划的动作以及施加在物体上的物理力来进行协调。这种言语和物理提示的自然整合使得有效的协调成为可能。类似地，通过整合言语和触觉通信模态，人机交互可以实现这种水平的协调。本文介绍了一个框架，将言语和力轮廓统一嵌入，以便两种通信模态可以以有效且协同的方式进行整合和协调。在这里，将展示尽管言语和物理力轮廓被视为完全不同的两种形式，但它们可以在一个统一的潜在空间中嵌入，并且两种形式之间的距离可以量化。在这个潜在空间中，力轮廓和言语可以：a) 相互补充，b) 整合个体效果，c) 以可互换的方式替代。首先，介绍了跨模态嵌入的需求，并介绍了基本架构和关键技术组件。随后，将讨论数据收集方法和实施挑战，接着展示实验结果和讨论。

发布时间: 2/6/2025

查看原文

使用L1范数的自适应体素加权损失在PET/CT图像中前列腺癌病灶的检测与分割的深度神经网络中

作者: Obed Korshie Dzikunu, Shadab Ahamed, Amirhossein Toosi, Xiaoxiao Li, Arman Rahmim

arXiv:2502.02756v1 宣布类型：交叉摘要：本文提出了一个适用于深度神经网络的新损失函数，L1加权Dice焦距损失（L1DFL），该损失函数基于体素的分类难度使用L1范数进行自适应加权，旨在自动化检测和分割PET/CT扫描中的转移性前列腺癌病灶。我们获得了380例生物化学复发转移性前列腺癌患者的PSMA [18-F] DCFPyL PET/CT扫描。我们训练了两个3D卷积神经网络，注意力U-Net和SegResNet，并将PET和CT体积按通道合并作为输入。我们评估了我们自定义的损失函数与Dice损失和Dice焦距损失函数的性能。为进一步临床相关性，我们考虑一个检测到的感兴趣区域（ROI）为真阳性，只要ROI内包含标准化摄取值最大的体素即可。我们根据图像中的病灶数量、肿瘤体积、活动性和扩散范围评估了模型的性能。在测试集上，L1DFL比比较损失函数至少提高了13%。此外，Dice损失和Dice焦距损失的F1分数分别比L1DFL低至少6%和34%。Dice焦距损失产生了更多的假阳性，而Dice损失对较小体积更敏感，并且难以准确分割较大的病灶。它们还表现出网络特异性差异，并且随着肿瘤扩散增加，分割准确性下降。我们的结果表明，L1DFL有可能提供在PSMA PET/CT图像中转移性前列腺癌病灶的稳健分割。结果还突出了由病灶特征变化引发的潜在复杂性，这些特征变化可能会影响自动化前列腺癌肿瘤检测和分割。代码可在：https://github.com/ObedDzik/pca_segment.git 公开获取。

发布时间: 2/6/2025

查看原文

PatchPilot：一种稳定且成本高效的代理修补框架

作者: Hongwei Li, Yuheng Tang, Shiqi Wang, Wenbo Guo

arXiv:2502.02747v1 类别: cross 摘要: 最近的研究构建了各种结合大型语言模型 (LLMs) 和非 ML 工具的补丁代理，并在最先进的软件补丁基准 SWE-Bench 上取得了令人瞩目的结果。根据确定补丁工作流程的方式，现有的补丁代理可以分为依赖 LLMs 制定计划的代理基计划方法和遵循既定工作流程的人基计划方法。从宏观角度来看，代理基计划方法在补丁性能上表现优异，但成本高且稳定性有限。另一方面，人基计划方法虽然更稳定且更高效，但在一些工作流程限制上会牺牲其补丁性能。本文中，我们提出了 PatchPilot，一个在补丁效果、稳定性和成本效益之间找到平衡的代理补丁器。PatchPilot 提出了一种新的基于人的计划工作流程，包含五个部分：复现、定位、生成、验证和细化（其中细化是PatchPilot独有的）。我们为每个组成部分引入了新颖且定制的设计，以优化它们的效果和效率。通过对 SWE-Bench 基准进行广泛的实验，PatchPilot 在保持低成本（每个实例少于1美元）和高稳定性的情况下表现出优于现有开源方法的性能。我们还进行了详细的消融研究，以验证每个组成部分的关键设计。

发布时间: 2/6/2025

查看原文

视觉-语言模型对话游戏用于自我提高

作者: Ksenia Konyushkova, Christos Kaplanis, Serkan Cabi, Misha Denil

arXiv:2502.02740v1 类型: cross 摘要：随着对高质量、多样化训练数据需求的不断增加，成为推进视觉语言模型（VLMs）的一个重要瓶颈。本文提出了VLM对话游戏，这是一种新颖且可扩展的自我改进框架，用于VLMs。我们的方法利用两个围绕图像识别展开目标导向游戏的代理之间的自对弈。通过筛选成功的游戏交互，我们自动创建了一个交织的高质量图像和文本数据集。我们展示了对该合成数据进行微调可以带来下游任务性能的提升，并且可以在不同数据集上泛化。此外，随着模型改进带来的游戏表现提升，这一过程可以迭代应用。这项工作为自我改进的VLMs铺平了道路，特别是在高质量多模态数据稀缺的情况下，具有在各种实际场景中的潜在应用。

发布时间: 2/6/2025

查看原文

Peri-LN: 重新审视Transformer架构中的层规范化

作者: Jeonghoon Kim, Byeongchan Lee, Cheonbok Park, Yeontaek Oh, Beomjun Kim, Taehwan Yoo, Seongjin Shin, Dongyoon Han, Jinwoo Shin, Kang Min Yoo

arXiv:2502.02732v1 宣告类型: cross 摘要: 在大型语言模型(LLMs)的时代，设计具有最优层归一化(LN)策略的Transformer架构，以确保大规模训练稳定性并加速收敛仍然是一个难题。为了解决这个问题，我们提供了一种全面的分析基础，了解不同LN策略如何影响大规模Transformer训练的动力学。直到最近，虽然Pre-LN和Post-LN在标准实践中长期占据主导地位，但它们在大规模训练中的局限性仍然存在。然而，最近一些开源大型模型开始默默地采用第三种策略，但几乎没有解释。这种策略将层归一化(LN)放置在子层的边缘位置，我们称之为Peri-LN。虽然Peri-LN展示了有前途的经验性能，但其确切机制和优势仍几乎没有被探索。我们的深入分析表明，Peri-LN在方差增长方面达到了理想的平衡——与Pre-LN和Post-LN不同，它们容易出现消失梯度和“大规模激活”的问题。为了验证我们的理论洞察，我们在多达32亿参数的Transformer上进行了大规模实验，结果显示Peri-LN始终能够实现更均衡的方差增长、更稳定的梯度流动和更可靠的收敛。我们的结果表明，Peri-LN值得在大规模Transformer架构中得到更广泛的考虑，并为LN的最佳放置和应用提供了新的见解。

发布时间: 2/6/2025

查看原文

联邦学习中自适应优化的参数跟踪

作者: Evan Chen. Jianing Zhang, Shiqiang Wang, Chaoyue Liu, Christopher Brinton

arXiv:2502.02727v1 类型: cross 摘要: 在联邦学习（FL）中，模型训练性能受到客户端数据异质性的影响极大。梯度跟踪（GT）最近作为一种解决方案出现，通过在局部模型更新中引入校正项来缓解这一问题。到目前为止，GT仅被考虑在基于随机梯度下降（SGD）的模型训练中，而现代FL框架越来越多地采用自适应优化器以提高收敛性能。在本文中，我们泛化了GT框架，提出了一个更灵活的参数跟踪（PT）范式，并提出了一种基于Adam的自适应优化算法FAdamET和FAdamGT，将PT整合到基于Adam的FL中。我们在非凸环境下提供了这两种算法的严格收敛分析。我们的实验结果表明，在不同数据异质性水平下，这两种算法在评估总通信成本和总计算成本时均优于现有方法，显示了在联邦自适应优化中纠正一阶信息的有效性。

发布时间: 2/6/2025

查看原文

天文学家2

作者: Cristobal Donoso-Oliva, Ignacio Becker, Pavlos Protopapas, Guillermo Cabrera-Vives, Martina C\'adiz-Leyton, Daniel Moreno-Cartagena

arXiv:2502.02717v1 交叉类型：cross 摘要：基础模型已成为深度学习领域的一种强大范式，借助其从大规模数据集中学习稳健表示的能力，并有效应用于各类下游应用程序，如分类。本文介绍了Astromer 2，这是一种专门用于提取光曲线嵌入的基础模型。我们引入Astromer 2作为我们用于光曲线分析的自我监督模型的增强版本。本文突出了其预训练嵌入的优势，将其性能与其前身Astromer 1进行了比较，并提供了其能力的详细实证分析，提供了模型表示的更深层次洞察。Astromer 2基于MACHO调查中的150万单带光曲线进行预训练，使用一个自我监督学习任务，该任务预测序列中的随机掩蔽观察值。通过对一个较小的标注数据集进行微调，我们可以评估其在分类任务中的性能。嵌入的质量通过在Astromer生成的嵌入上训练的MLP分类器的F1分数来衡量。我们的结果表明，Astromer 2在所有评估场景中均显著优于Astromer 1，包括每类20、100和500个样本的有限数据集。使用集成自Astromer注意力块的中间表示的加权样本嵌入特别具有影响性。值得注意的是，与先前模型相比，Astromer 2在ATLAS数据集上的F1分数提高了15%，展示了其对新数据集的强大泛化能力。这种增强的性能，特别是在少量标注数据的情况下，突显了Astromer 2在更高效的光曲线分析中的潜力。

发布时间: 2/6/2025

查看原文

LLM fine-tuning和few-shot学习在不可靠测试检测与分类中的分析

作者: Riddhi More, Jeremy S. Bradbury

arXiv:2502.02715v1 Announce Type: cross 摘要：非确定性测试在执行过程中表现出非确定性行为，它们可能在程序代码未作任何更改的情况下通过或失败。检测和分类这些非确定性测试对于维护自动化测试套件的稳健性以及确保测试的整体可靠性和信心至关重要。然而，由于测试行为的变异性，这对非确定性测试的检测和分类构成了挑战，该变异性可能取决于环境条件和代码中的细微交互。大型语言模型（LLMs）提供了应对这一挑战的有前景的方法，微调和少量示例学习（FSL）已作为可行的技术出现。通过足够的数据对预训练的LLM进行微调可以实现高准确性，使其适合资源较多的组织。为此，我们引入了FlakyXbert，这是一种FSL方法，使用双胞胎网络架构以有限的数据高效地进行训练。为了理解这两种方法在性能和成本上的差异，我们在受限于较小数据集的情景中将通过较大数据集进行微调与FSL进行了比较。我们的评估涉及两个现有的非确定性测试数据集FlakyCat和IDoFT。我们的结果显示，虽然微调可以达到高准确性，但FSL提供了具有竞争力准确性的成本效益更高的方法，这对于有限的历史数据可用进行训练的组织或项目尤其有利。这些发现强调了在非确定性测试检测和分类中，微调和FSL都具有可行性，每种方法适用于不同的组织需求和资源可用性。

发布时间: 2/6/2025

查看原文