LLM2D

arXiv 论文列表

作者: Byeonggeun Kim, Juntae Lee, Kyuhong Shim, Simyung Chang
arXiv:2411.09986v2 公告类型: 替换-交叉 摘要: 少例开放集识别(FSOSR)旨在解决一个关键的现实世界挑战,目标是将输入分为已知类别,称为封闭集类别,同时识别那些超出这些类别的开放集输入。尽管在封闭世界中,模型调整到特定的少例任务已经成为一个主流范式,但我们观察到,它无法扩展到开放世界。为了解决这一挑战,我们提出了一种两阶段方法,该方法包含有开放集意识的元学习和开放集无关的迁移学习。在有开放集意识的元学习阶段,模型被训练以建立一个度量空间,为后续阶段提供有益的起点。在开放集无关的迁移学习阶段,模型通过迁移学习进一步适应特定目标任务。此外,我们提出了一种通过修改训练数据集或生成伪开放集示例来模拟开放集示例的策略。所提出的方法在两个广受认可的标准基准 miniImageNet 和 tieredImageNet 上达到了最先进的性能,仅增加了 1.5% 的训练努力。我们的工作证明了迁移学习在 FSOSR 中的有效性。
发布时间: 5/6/2025
查看原文
作者: Zhiyuan Peng, Jinming Nian, Alexandre Evfimievski, Yi Fang
arXiv:2410.14567v4 通告类型: replace-cross 摘要: 回忆增强生成(RAG)已成为大型语言模型(LLMs)的一个重要组成部分,特别是在对话AI系统中,用户的提问可能会参考LLMs训练截止之外的知识。然而,许多自然语言的用户提问缺乏明确的答案,要么是因为领域知识有限,要么是因为检索系统返回的文档看似相关但内容不提供必要的信息。在这种情况下,LLMs往往会生成虚构的答案而没有任何提示。尽管最近的工作主要集中在有错误前提的问题上,我们研究了超出范围的问题,即检索到的文档在语义上似乎与问题相似,但缺乏回答问题所需的必要信息。在这篇论文中,我们提出了一种引导虚构的方法ELOQ,用于从训练截止后的文档中自动生成多样化的超出范围的问题,然后通过人工验证确保质量。我们使用这一数据集评估几个LLM在其检测超出范围的问题并生成相应回答的能力。最后,我们介绍了一种改进的检测方法,以增强基于LLM的问题回答系统的可靠性,使其更好地处理超出范围的问题。
发布时间: 5/6/2025
查看原文
作者: Youngjae Min, Navid Azizan
arXiv:2410.10807v2 宣告类型: 替换交叉 摘要:将先验知识或输入输出关系的规范融入机器学习模型已获得广泛关注,这有助于从有限数据中进行泛化,并产生符合要求的输出。然而,大多数现有方法通过正则化惩罚违反约束来使用软约束,这无法提供约束满足的保证——这是安全关键应用中的一个基本要求。另一方面,在神经网络上施加硬约束可能会影响其表示能力,从而不利地影响性能。为了解决这一问题,我们提出了一种名为HardNet的实用框架,该框架可以在不牺牲模型容量的情况下使神经网络本身满足硬约束。与仅在推断时修改输出的方法不同,HardNet允许在具有一致硬约束保证的情况下端到端训练,从而提高性能。据我们所知,HardNet是第一种具有高效前向传播来强制执行多个输入依赖不等式约束的方法。通过在网络输出后附加一个可微闭式强制层,它允许使用标准算法对网络参数进行未约束优化。此外,我们展示了HardNet保留了神经网络的通用逼近能力。我们展示了HardNet在各种应用中的通用性和有效性,包括有分段约束的学习、优化求解器的学习、在安全关键系统中优化控制策略和在航空系统中学习安全决策逻辑。
发布时间: 5/6/2025
查看原文
作者: Amir Eskandari, Aman Anand, Drishti Sharma, Farhana Zulkernine
arXiv:2410.03954v2 公告类型: replace-cross 摘要:在各种应用中,多变量时间序列常常存在缺失数据的问题。这一问题可能会显著扰乱依赖于数据的系统。可以通过利用空间和时间依赖性来填补缺失样本。现有的填补方法往往忽略了空间依赖性的动态变化。我们提出了一种名为Spatial Dynamic Aware Graph Recurrent Imputation Network(SDA-GRIN)的方法,该方法能够捕捉空间依赖性的动态变化。SDA-GRIN 利用多头注意力机制来适应随时间变化的图结构。SDA-GRIN 将多变量时间序列视为时间序列图,并使用递归消息传递架构进行填补。我们在四个真实世界数据集上评估了 SDA-GRIN:对于AQI,SDA-GRIN 将MSE 改进了9.51%;对于AQI-36,SDA-GRIN 将MSE 改进了9.40%。在PEMS-BAY数据集上,它在MSE 上实现了1.94%的改进。详细的消融研究展示了窗口大小和缺失数据对方法性能的影响。项目页面:https://ameskandari.github.io/sda-grin/
发布时间: 5/6/2025
查看原文
作者: Tadahiro Taniguchi, Masafumi Oizumi, Noburo Saji, Takato Horii, Naotsugu Tsuchiya
arXiv:2409.09413v2 宣告类型: replace-cross 摘要:本文探讨了语言浮现与其主观体验的关系结构(即qualia结构)之间的双向影响,并提出了处理这两者复杂依赖关系的建设性方法。我们假定具有分布语义的语言(例如,语法-语义结构)的浮现与其经验塑造的内部表征之间的协调有关,这可能通过相互影响促进更结构化的语言。这一假定的相互依赖性与最近在AI和符号浮现机器人领域的进展相连,并在本文通过集体预测编码等理论框架进行了探讨。计算研究表明,基于神经网络的语言模型形成了系统性的内部表征,而多模态语言模型可以在语言和感知信息之间共享表征。本文指出,语言浮现不仅是一种创造交流工具的机制,也是一种使人们能够实现对质量体验的共同理解的机制。本文讨论了这种双向影响在意识研究、语言学和认知科学中的含义,并概述了未来进一步探索语言浮现与qualia结构之间这种动态关系的建设性研究方向。
发布时间: 5/6/2025
查看原文
作者: Hongyang Lei, Xiaolong Cheng, Dan Wang, Kun Fan, Qi Qin, Huazhen Huang, Yetao Wu, Qingqing Gu, Zhonglin Jiang, Yong Chen, Luo Ji
arXiv:2409.05929v4 通知类型: replace-cross 摘要:当前的多模态对齐策略主要使用单模态或统一模态编码器,并在原始标记空间内进行对齐优化。这种框架易于实现并可以与预训练知识相结合,但可能会导致信息偏差。为应对这些问题,联合编码预测架构(JEPA)在潜在空间中学习对齐损失,使用预测器将输入编码转换为输出潜在空间。然而,JEPA在多模态场景中的应用到目前为止是有限的。在本文中,我们引入了M3-Jepa,这是一种可扩展的多模态对齐框架,其中预测器通过多方向的专家混合(MoE)实现。我们通过信息理论推导展示了框架可以通过交替不同的单方向任务的优化来最大化互信息。通过精心设计的实验,我们表明M3-Jepa可以在不同模态和任务上获得最先进的性能,对未见过的数据集和领域具有泛化能力,并且在训练和推断时具有计算效率。我们的研究指出,M3-Jepa可能为自监督学习和开放世界建模提供一种新的范式。
发布时间: 5/6/2025
查看原文
作者: Ali Maatouk, Kenny Chirino Ampudia, Rex Ying, Leandros Tassiulas
arXiv:2409.05314v3 宣告类型: replace-cross 摘要:大型语言模型(LLMs)的出现对各个领域产生了显著影响,从自然语言处理到医学和金融等产业。然而,尽管它们迅速普及,LLMs 在电信领域的应用仍然有限,通常依赖于缺乏专门领域特化的通用模型。这种缺乏专业化导致在处理电信特定的技术术语及其相关的数学表示时表现不佳。本文通过首先创建并传播 Tele-Data,这是一个从相关来源收集的全面的电信材料数据集,以及 Tele-Eval,一个为该领域量身定制的大规模问答数据集,来解决这一缺口。通过广泛的实验,我们探讨了将LLMs 调适到电信领域最有效的训练技术,从不同电信方面分布专业知识的考察到采用参数高效技术。我们还研究了不同规模模型在调适过程中的行为,并分析了其培训数据对这种行为的影响。利用这些发现,我们开发并开源了 Tele-LLMs,这是第一个参数范围从1B到8B的专门针对电信领域的语言模型系列。我们的评估表明,这些模型在 Tele-Eval 和与电信相关的文献任务中优于通用模型,同时保留了它们之前获得的能力,从而避免了灾难性遗忘现象。
发布时间: 5/6/2025
查看原文
作者: Chen Hu, Hanchi Ren, Jingjing Deng, Xianghua Xie, Xiaoke Ma
arXiv:2408.17090v2 宣告类型: replace-cross 摘要: 联邦学习是一种机器学习范式,它使分散的客户端能够在保持所有训练数据本地化的情况下协作学习一个共享模型。虽然对联邦图像生成的研究已经取得了显著进展,特别是生成对抗网络(GAN)和变分自编码器(VAE),但后者却受到了较少的关注。本文针对具有不同类型图片不同组的非独立且非同分布(non-IID)数据环境进行了处理。非IID数据分布可能导致难以维持一致的潜在空间,并且在聚合过程中会导致具有不同纹理特征的局部生成器混合。因此,我们引入了FissionVAE,通过解耦潜在空间和为每个客户端组定制解码器分支来解决这些问题。这种方法允许定制学习,以适应每个组的独特数据分布。此外,我们结合了分层VAE,并在FissionVAE中展示了异构解码器架构的应用。我们还探讨了如何设置潜在先验分布以增强解耦过程的策略。为了评估我们的方法,我们构建了两个合成数据集:第一个将MNIST和FashionMNIST结合在一起;第二个包括RGB数据集的卡通和人脸图像、野生动物、海洋船只和遥感图像。我们的实验表明,与基线联邦VAE模型相比,FissionVAE在这两个数据集上显著提高了生成质量。
发布时间: 5/6/2025
查看原文
作者: Xiaochen Wang, Jiaqi Wang, Houping Xiao, Jinghui Chen, Fenglong Ma
arXiv:2408.10276v4 宣告类型: replace-cross 摘要:基础模型在处理多种模态和任务方面展现了 remarkable 的能力,超越了那些高度针对特定任务和依赖特定模态的传统人工智能方法。然而,在医疗领域,全面的基础模型的发展受到了有限的多元模态数据访问和严格的隐私法规的限制。为了解决这些问题,本研究引入了一种新的知识注入方法 FedKIM,旨在在联邦学习框架中扩展医疗基础模型。FedKIM 利用轻量级的本地模型从私有数据中提取医疗知识,并通过一个设计好的自适应多任务多模态专家混合(M3OE)模块将这些知识整合到中心的基础模型中。这种方法不仅保护了隐私,还增强了模型处理涉及多种模态的复杂医疗任务的能力。我们在七个模态下的十二个任务上的大量实验展示了 FedKIM 在各种设置下的有效性,强调了其在无需直接访问敏感数据的情况下扩展医疗基础模型的潜力。
发布时间: 5/6/2025
查看原文
作者: Kun Li, Xiantao Cai, Jia Wu, Bo Du, Wenbin Hu
arXiv:2408.09106v2 宣告类型: 替换-交叉 摘要:分子优化是药物发现中的关键方面,旨在通过改进分子结构来提高药物疗效并减少副作用,最终加速整个药物开发过程。已经提出了许多基于靶点的分子优化方法,极大地推进了药物发现。这些方法主要关注理解特定药物靶点结构或其在对抗疾病中假设的作用。然而,可用靶点数量有限和难以捕获清晰结构的挑战限制了创新药物的开发。相比之下,表型药物发现(PDD)不依赖于清晰的靶点结构,可以识别具有新颖和无偏多药理学特征的候选药物。因此,基于PDD的分子优化可以减少潜在的安全风险,同时优化表型活性,从而提高临床成功的可能性。因此,我们提出了一种基于PDD的片段遮罩分子优化方法(FMOP)。FMOP 使用无回归扩散模型在无需训练的情况下有条件地优化分子遮罩区域,有效生成具有相似骨架的新分子。我们在大型药物反应数据集GDSCv2上对所有945个细胞系进行分子优化。整体实验表明,计算优化成功率达到了94.4%,平均效力提高5.3%。此外,我们进行了广泛的消融和可视化实验,确认FMOP 是一种有效且稳健的分子优化方法。代码可在以下网址获取:https://anonymous.4open.science/r/FMOP-98C2。
发布时间: 5/6/2025
查看原文