LLM2D

arXiv 论文列表

作者: Qi Bi, Jingjun Yi, Haolan Zhan, Wei Ji, Gui-Song Xia
arXiv:2504.08020v1 域泛化类型:跨域 摘要:细粒度域泛化(FGDG)的目标是在仅使用源域数据进行训练的情况下,学习一种能够很好地泛化到未见过的目标域的细粒度表示。与通用域泛化相比,FGDG尤其具有挑战性,因为细粒度类别只能通过一些细微且微小的模式来区分。这些模式在由于光照、颜色等因素引起的跨域样式转变下尤其脆弱。为了推进这一前沿,本文提出了一种新颖的双曲状态空间 hallucination(HSSH)方法。该方法由两个关键组件组成,即状态空间 hallucination (SSH) 和 双曲流形一致性 (HMC)。SSH 通过首先外推然后 hallucination 源图像来丰富状态嵌入的样式多样性。然后,预处理和后处理的样式 hallucination 状态嵌入被投影到双曲流形上。双曲状态空间建模高阶统计特性,并能更好地区分细粒度模式。最后,通过最小化双曲距离,从而消除样式变化对细粒度模式的影响。在三个 FGDG 基准上的实验展示了其最先进的性能。
发布时间: 4/14/2025
查看原文
作者: Qi Bi, Jingjun Yi, Hao Zheng, Haolan Zhan, Wei Ji, Yawen Huang, Yuexiang Li
arXiv:2504.08019v1 宣告类型: cross 摘要: 域泛化旨在从源域学习一种表示,该表示可以泛化到任意未知的目标域。视觉域泛化中的基本挑战是由剧烈的风格变异引起的域差距,而图像的内容是稳定的。由VMamba等选择状态空间表示内容的领域展示了其全局感受野。然而,选择状态空间利用域不变性质的方法很少被探索。本文中,我们提出了一种新的流因子化状态空间模型,称为DG-Famba,用于视觉域泛化。为了保持域一致性,我们通过流因子化创新地映射风格增强态嵌入和原始状态嵌入。在这一潜流空间中,特定风格的每个状态嵌入由一个潜在概率路径指定。通过在潜空间中对齐这些概率路径,状态嵌入能够无论风格差异如何,均能表示相同的内容分布。在各种视觉域泛化设置中进行的广泛实验表明,其性能达到了最先进的水平。
发布时间: 4/14/2025
查看原文
作者: Jinming Lu, Minghao She, Wendong Mao, Zhongfeng Wang
arXiv:2504.07998v1 公告类型: cross 摘要:对大型扩散模型进行定制应用的微调需要大量的计算能力和时间,这为在移动设备上高效实现带来了重大挑战。本文中,我们开发了一种专门为低秩适应(LoRA)设计的新型训练加速器,旨在简化这一过程并降低计算复杂度。通过利用完全量化训练方案进行LoRA微调,我们实现了内存使用量和能耗的显著减少,同时保持了高模型保真度。所提出的加速器具有灵活的数据流,能够在LoRA过程中高效处理不规则和可变张量形状。实验结果表明,与基线相比,训练速度提高了1.81倍,能耗效率提高了5.50倍,且对图像生成质量的影响最小。
发布时间: 4/14/2025
查看原文
作者: Samah Alkhuzaey, Floriana Grasso, Terry R. Payne, Valentina Tamma
arXiv:2504.07994v1 类型: cross 摘要:基于本体的提问生成是语义感知系统的重要应用,能够为各种教学环境创建大量问题库。这些系统的有效性,无论是生成的问题的质量还是认知难度,都很大程度上依赖于底层本体的质量和建模方法,因此评估其适合于这一任务的能力至关重要。到目前为止,尚无人全面调查哪些具体本体方面或特征会影响提问生成过程。因此,本文提出了一套评估本体适合于教学环境中的自动提问生成任务的要求和任务特定指标。利用ROMEO方法,一种用于推导任务特定指标的结构化框架,采用专家导向的方法评估了多种本体在自动提问生成(AQG)任务中的性能,随后对这些本体进行了评估。我们的结果表明,本体特征显著影响提问生成的有效性,不同本体展现了不同的性能水平。这突显了评估本体质量以适应AQG任务的重要性。
发布时间: 4/14/2025
查看原文
arXiv:2504.07992v1 类型: cross 摘要: 大型语言模型驱动的AI系统可能会表现出一种我们称为“神经自激励性循环”的推理失败模式,在这种模式中,某些权重较高的输入变得占主导地位,从而导致难以纠正的固有响应模式。本文探讨了这一现象的机制,这与模型坍塌和带有偏差的显着性加权不同。我们提出了一种基于衰减的纠正机制,该机制动态引入平衡调整,即使在“锁定”AI系统中也能恢复适应性推理。此外,我们还讨论了由于不当管理强化而产生的其他相关效应。最后,我们概述了这一缓解策略在提高实际决策任务中AI鲁棒性方面的潜在应用。
发布时间: 4/14/2025
查看原文
arXiv:2504.07990v1 宣传类型: cross 摘要:了解无线电频电磁场(RF-EMF)环境暴露的空间和时间模式对于进行风险评估至关重要。这些评估旨在探索RF-EMF暴露与其对人类健康、野生动物和植物生命的影响之间的潜在联系。现有研究使用了不同的机器学习工具来估计电磁场暴露;然而,为了更好地了解这些技术在实际数据集上的表现,需要对这些技术进行比较分析。在本文中,我们使用有限和无限宽度卷积网络方法,从法国里尔的70个实际传感器中估计和评估EMF暴露水平。进行了比较分析,以分析这些方法的执行时间和估计准确性。为了提高更高分辨率网格的估计准确性,我们利用预条件梯度下降方法进行核估计。均方根误差(RMSE)被用作比较这些深度学习模型性能的评估标准。
发布时间: 4/14/2025
查看原文
作者: Nirvan Patil, Malhar Abhay Inamdar, Agnivo Gosai, Guruprasad Pathak, Anish Joshi, Aryan Sagavekar, Anish Joshirao, Raj Dandekar, Rajat Dandekar, Sreedath Panat
arXiv:2504.07989v1 宣布类型: cross 摘要: 小型语言模型(SLMs)为特定领域提供了LLMs的高效替代方案。2023年TinyStories研究开发了一个英语数据集,允许具有1至10百万元参数的SLMs生成连贯的输出。我们的研究扩展了这一框架,通过使用LLMs将原始数据集翻译成印度语,并生成合成数据。我们重点关注印地语、马拉地语和孟加拉语,评估SLMs在处理区域语言方面的表现,并理解语言复杂性。我们展示了一个参数远少于LLMs的SLMs可以高效处理区域语言,提供了一种补充框架,用于基于推理评估分词策略和语言复杂性。我们的分析表明,特定语言的分词器在印度语言方面优于通用分词器。通过对信息论和形态学分析的支持的实证验证提供了动力,揭示了印地语模型在马拉地语和孟加拉语方面的更好性能背后的原理。此外,我们展示了合成数据集在训练SLMs方面优于翻译内容。相关性分析揭示了跨语言模式以及创造力、语法精确性和叙事完整性之间语言特异性的关系。这些发现不仅推进了SLMs在未服务语言中的实际应用,还深化了我们对神经语言发展的理论理解。
发布时间: 4/14/2025
查看原文
作者: Runjin Chen, Zhenyu Zhang, Junyuan Hong, Souvik Kundu, Zhangyang Wang
arXiv:2504.07986v1 Announce Type: cross 摘要:大规模语言模型(LLMs),如 OpenAI 的 o1 系列,在扩展链式思考(CoT)推理机制下展示了复杂的推理任务能力。然而,最近的研究揭示了 CoT 推理轨迹中的大量冗余,这不仅增加了推理延迟,还通过对不必要的推理路径产生关注而负向影响了模型性能。为解决这一问题,我们研究了 LLMs 的内部推理结构,并将其分类为三种主要思维类型:执行思维、反思思维和过渡思维。此外,我们的分析表明,过度的反思思维和过渡思维与失败案例密切相关,并且这些思维类别在潜在空间中表现出明显的分离。基于这些发现,我们引入了 SEAL(可控推理校准),这是一种无需训练的方法,可无缝校准 CoT 过程,提高准确率同时展示出显著的效率提升。SEAL 包括一个离线阶段,用于在潜在空间中提取推理引导向量,然后通过使用引导向量进行表示干预来实时校准推理轨迹。值得注意的是,引导向量在各种任务中表现出强大的可迁移性。在多个模型(DeepSeek-R1-Distill 和 QwQ-32B-Preview)和基准测试(Math500、GSM8K、LiveCodeBench)上的大量实验验证了 SEAL 的有效性,准确率提高了 11%,同时减少了 11.8% 到 50.4% 的推理标记。我们的代码可在 https://github.com/VITA-Group/SEAL 公开获取。
发布时间: 4/14/2025
查看原文
arXiv:2504.07983v1 交叉公告类型: 摘要:随着社交媒体平台上的心理健康危机日益增多,识别和预防潜在危害已成为一个迫在眉睫的挑战。本研究介绍了一种基于大规模语言模型(LLM)的文本转移识别方法,结合了领域特定的心理健康知识,以进行社交媒体危机干预。我们提出了一种多层次框架,该框架结合了使用BERT的迁移学习,并集成了心理健康知识、情感分析和技术行为预测方法。该框架包括一个基于现实世界事件的社交媒体数据集训练的心理危机标注工具,使模型能够检测到细微的情感线索并识别心理危机。实验结果表明,与传统模型相比,所提出的方法在危机检测准确性方面表现出色,并且能够更好地对细微的情感和背景变化作出敏感反应。
发布时间: 4/14/2025
查看原文
作者: Harishwar Reddy, Madhusudan Srinivasan, Upulee Kanewala
arXiv:2504.07982v1 宣告类型: cross 摘要:大规模语言模型(LLMs)在自然语言处理领域取得了显著进展,但仍然容易受到公平性相关问题的影响,这些问题经常反映出其训练数据中存在的偏见。这些偏见在LLMs在医疗保健、金融和法律等敏感领域部署时带来了风险。本文介绍了一种元型测试方法,用于系统地识别LLMs中的公平性错误。我们定义并应用于评估LLaMA和GPT模型(目前最先进的LLM)的一组以公平性为导向的元型关系(MRs),这些模型接收各种人口统计学输入。我们的方法包括为每个MR生成源测试用例和后续测试用例,并分析模型响应以检测公平性违规。结果表明,元型测试在揭示与语气和情感相关的偏见模式方面特别有效,并具体指出了敏感属性的交集,这些交集经常暴露出公平性错误。这项研究在LLMs中改进了公平性测试,提供了一种结构化的方法来检测和减轻偏见,从而在公平性敏感的应用中提高模型的鲁棒性。
发布时间: 4/14/2025
查看原文