LLM2D

arXiv 论文列表

作者: Volodymyr Havrylov, Haiwen Huang, Dan Zhang, Andreas Geiger
arXiv:2505.02075v1 交叉类型: 摘要:视觉基础模型(VFMs)是大规模的预训练模型,作为各种计算机视觉任务的一般用途骨干网络。随着VFMs的普及,越来越多的人对其在密集预测任务中的有效性产生了兴趣。然而,VFMs通常生成低分辨率的特征,限制了它们在这种情境下的直接应用。解决这一局限的一种方法是采用一种任务无关的特征上采样模块,以提高VFMs特征的分辨率。为了评估这种方法的有效性,我们研究了交互分割(IS)作为新的基准,用于评估在VFMs上进行特征上采样方法的效果。由于其固有的多模态输入,即图像和一系列用户定义的点击,以及密集的掩码输出,IS创造了一个充满挑战的环境,需要全面的视觉场景理解。我们的基准实验表明,选择合适的上采样策略显著提高了VFMs特征的质量。代码已发布于https://github.com/havrylovv/iSegProbe
发布时间: 5/6/2025
查看原文
arXiv:2505.02073v1 宣布类型: cross 摘要:随着时间序列分类(TSC)的重要性日益凸显,确保TSC模型在对抗攻击下的稳健性变得至关重要。尽管在计算机视觉(CV)领域已经对对抗防御进行了深入研究,但TSC领域主要依赖于对抗训练(AT),这在计算上非常昂贵。在本文中,我们为时间序列开发了五种基于数据增强的防御方法,其中最计算密集的方法相比原始TSC模型仅增加了14.07%的计算资源。此外,这些方法的部署过程很简单。凭借我们方法的优势,我们创造了两种组合方法。其中一个方法是所有提出技术的集成,不仅提供了比基于PGD的AT更好的防御性能,还增强了TSC模型的泛化能力。此外,我们集成方法所需的计算资源不到基于PGD的AT所需资源的三分之一。这些方法在数据挖掘中推动了TSC的稳健性。此外,随着基础模型越来越多地被探索用于时间序列特征学习,我们的工作为未来研究中结合基于数据增强的对抗防御和大规模预制模型提供了见解。
发布时间: 5/6/2025
查看原文
arXiv:2505.02072v1 交叉类型公告 摘要:语言模型的概念在近年来逐渐从有限长度字符串的分布转变为针对文本输入和输出的一般预测模型,遵循适当的对齐阶段。本文分析了在大规模语言模型(LLMs)上下文中分布估计与响应预测之间的区别及其经常冲突的目标。我们探讨了LLMs的训练阶段,包括预训练、上下文学习和偏好调整,以及它们输出概率的常见应用场景,包括完成概率和显式概率输出。我们认为不同的设置导致了三种不同的预期输出分布。我们证明,许多NLP工作假设这些分布应该相似,这导致了对实验结果的误解。我们的工作为LLMs的解释奠定了更坚实的正式基础,这将指导对LLMs诱导分布的解释和使用的研究。
发布时间: 5/6/2025
查看原文
作者: Sebastian Rassmann, David K\"ugler, Christian Ewert, Martin Reuter
arXiv:2505.02048v1 交叉类型 摘要:在有限的时间预算内获取信息丰富的图像对于医学成像至关重要。医学图像翻译(MIT)可以通过从已收购的数据生成合成图像来增强和补充现有的数据集。尽管生成对抗网络(GANs)和扩散模型(DMs)在自然图像生成方面取得了显著的成功,但它们的创意性和图像真实性并不必然适用于需要高精度解剖信息的医学应用。实际上,获取噪声的模仿或内容幻觉阻碍了临床应用。在这里,我们介绍了YODA(一次或平均降噪 - or 2.5D 扩散基框架)这一新颖的体域MIT框架。YODA将扩散和回归范式结合在一起,生成真实的或无噪声的输出。此外,我们提出了期望逼近(ExpA)DM采样,其灵感来源于MRI信号平均化。ExpA-采样抑制生成的噪声,因此从源头上消除了噪声对图像质量评估的偏差。通过在四个不同的多模态数据集上进行广泛的实验——包括多对比度脑MRI和骨盆MRI-CT——我们展示了扩散和回归采样在实践中具有相似的结果。因此,扩散采样的计算开销在医学信息翻译中并未系统地提供优势。基于这些见解,我们证明了YODA在几种最先进的GAN和DM方法中表现出优越性。值得注意的是,YODA生成的图像在若干下游任务中展示出与甚至优于物理收购的图像。我们的发现挑战了DMs在MIT中的假设优势,并为MIT在医学成像中的实际应用铺平了道路。
发布时间: 5/6/2025
查看原文
作者: Rui Lv, Zaixi Zhang, Kai Zhang, Qi Liu, Weibo Gao, Jiawei Liu, Jiaxia Yan, Linan Yue, Fangzhou Yao
arXiv:2505.02027v1 交叉类型:公告 摘要:图上下文学习(Graph In-Context Learning)具备在不更新任何参数的情况下将预训练的图模型适应于新颖且多样的下游图的优势,已在研究界引起了广泛关注。图上下文学习的关键在于根据选定的提示示例对下游图进行条件化处理。现有的方法随机选择子图或边作为提示,这导致了提示图的噪声,并且模型性能较差。此外,由于预训练图和测试图之间存在差距,当测试图中的类的数量远大于训练图中的类的数量时,上下文学习的能力也会显著下降。为了应对上述挑战,我们开发了一种多阶段自适应提示优化方法——GraphPrompter,该方法优化了生成、选择和使用图提示的整个过程,以提高上下文学习的能力。首先,提示生成器引入了一个重构层,以突出最具有信息性的边并减少图提示构建过程中的无关噪声。此外,在选择阶段,提示选择器使用 $k$-最近邻算法和预训练的选择层来动态选择合适的样本并最小化无关提示的影响。最后,我们利用具有缓存替换策略的提示增强器来增强预训练模型在新数据集上的泛化能力。广泛的实验表明,GraphPrompter 有效地增强了图模型的上下文学习能力。在所有设置的平均性能上,我们的方法比最新的基线高出超过 8%。我们的代码已发布于 https://github.com/karin0018/GraphPrompter。
发布时间: 5/6/2025
查看原文
作者: Yancheng Chen, Wenguo Yang, Zhipeng Jiang
arXiv:2505.02020v1 交叉公告类型 摘要:Wide & Deep是一种由Google开发的简单而有效的推荐系统学习架构,由于其结合了泛化线性模型的记忆能力和深度模型的泛化能力,因此在学术界和工业界都产生了重大影响。图卷积网络(GCNs)在节点分类任务中仍占主导地位;然而,近期的研究指出了一些问题,如异质性和表达能力,这些问题主要关注图结构,似乎忽视了节点特征的潜在作用。在本文中,我们提出了一个灵活框架GCNIII,该框架利用了Wide & Deep架构,并结合了三种技术:交义记忆、初始残差和恒等映射。我们提供了全面的实证证据,表明GCNIII在各种半监督和全监督任务中能够更有效地平衡过拟合和过泛化之间的权衡。此外,我们还探索了大型语言模型(LLMs)在节点特征工程中的应用,以增强GCNIII在跨域节点分类任务中的性能。我们的实现可在https://github.com/CYCUCAS/GCNIII获取。
发布时间: 5/6/2025
查看原文
arXiv:2505.02011v1 类型: cross 摘要: 多变量长期时间序列预测在天气预报和交通分析等应用中至关重要。此外,Transformer 变体的实现提高了预测准确性。遵循这些变体,不同的输入数据分析方法也增强了该领域,例如包括点、通道和块的归一化技术。然而,先前的研究仍然在时间复杂性、计算资源以及跨维度交互方面存在局限性。为了应对这些局限性,我们提出了一种新的基于CNN自动编码器的得分注意力机制(CASA),该机制可以以减少内存的方式在任何Transformer模型中引入,并提高模型性能。在八个实际数据集上的实验验证了CASA可以将计算资源降低至最多77.7%,将推理加速44.0%,并达到了最先进的性能,评估指标中有87.5%排名第一。
发布时间: 5/6/2025
查看原文
arXiv:2505.01998v1 宣告类型: cross 摘要: 本文提出了一种将非线性声学计算与强化学习结合起来的新颖框架,以增强在复杂噪声和混响环境下的高级人机交互。利用物理导向的波动方程(例如,韦斯特维尔特、KZK 方程),该方法捕捉到高阶现象,如谐波生成和冲击形成。通过将这些模型嵌入到由强化学习驱动的控制回路中,系统自适应地优化关键参数(例如,吸收、波束形成),以减轻多路径干扰和非平稳噪声。实验评估涵盖了远场定位、弱信号检测和多语言语音识别,结果显示这种混合策略超越了传统的线性方法和纯数据驱动的基础模型,实现了更优的降噪效果、最低的延迟和在严峻的现实场景中的稳健准确性。所提出系统展示出了广泛的应用前景,在人工智能硬件、机器人、机器听觉、人工听觉和脑-机接口等多个领域都有 potential。
发布时间: 5/6/2025
查看原文
作者: Jiancong Xiao, Bojian Hou, Zhanliang Wang, Ruochen Jin, Qi Long, Weijie J. Su, Li Shen
arXiv:2505.01997v1 宣称类型: cross 摘要:大型语言模型(LLMs)成功的关键技术之一是偏好对齐。然而,偏好对齐的一个显著副作用是校准不佳的问题:虽然预训练模型通常校准良好,但与人类偏好对齐后的LLMs往往会变得校准不佳。在本文中,我们研究了偏好对齐如何影响校准,并探讨如何解决这一问题。对于第一个问题,我们观察到,偏好对齐中的偏好崩溃问题不幸地扩展到了校准场景,导致LLMs表现出过度自信和校准不佳。为了解决这一问题,我们证明了以特定领域知识进行微调的重要性,以缓解过度自信问题。为了进一步分析这是否影响模型的性能,我们将模型分为两类:可校准和不可校准,根据期望校准误差(ECE)的边界进行定义。在可校准领域,我们提出了一种校准感知的微调方法,在不损害LLMs性能的情况下实现适当的校准。然而,随着模型进一步微调以提高性能,它们进入了不可校准领域。为此情况,我们开发了一种基于EM算法的ECE正则化方法,用于微调损失,以保持低校准误差。大量实验验证了所提出方法的有效性。
发布时间: 5/6/2025
查看原文
arXiv:2505.01967v1 宣告类型: cross 摘要: 大型语言模型(LLMs)已成为日常生活的一部分,广泛应用于沟通、决策和信息检索,引发了关于我们如何通过这些系统隐含地形成和表达社会认知态度或“世界观”的关键问题。虽然现有研究广泛探讨了人口统计和伦理偏见问题,但诸如权威、平等、自主和命运等方面的态度仍然被忽视。在本文中,我们引入了社会世界观分类框架(Social Worldview Taxonomy, SWT),该框架以文化理论为基础,将四种典型的世界观(阶层主义、平等主义、个人主义、宿命论)细分为可测量的子维度。通过使用SWT,我们实证地识别了28种不同LLM的认知特征。此外,受到社会参照理论的启发,我们通过实验展示了明确的社会线索如何系统地影响这些认知态度,揭示了总体反应模式和模型特定的细微差异。我们的研究通过揭示隐含的社会认知偏见及其对社会反馈的响应,增强了LLMs的可解释性,从而指导了更透明和负责任的语言技术的发展。
发布时间: 5/6/2025
查看原文