LLM2D

arXiv 论文列表

作者: Elan Markowitz, Anil Ramakrishna, Ninareh Mehrabi, Charith Peris, Rahul Gupta, Kai-Wei Chang, Aram Galstyan
arXiv:2502.10626v1 交叉类型的文章 摘要:随着世界的变化,我们需要能够更新我们的模型并更正错误信息而无需耗费成本的重新训练。基于知识的模型编辑能够对大型语言模型的权重进行精准修改,以修改其中编码的信息。最近的方法在极大地提高了一次进行数千次编辑的回忆能力方面取得了成功。然而,这些方法未能产生考虑到相关上下文信息的编辑。我们提出了K-Edit,一种生成上下文一致的知识编辑的有效方法。通过使用知识图谱,在编辑边时保持上下文一致性,我们能够生成额外的“上下文编辑”,以确保语言模型中相关信息的一致性。我们的实验显示,在保持模型编辑的一般有效性和可扩展性的同时,显著提高了多跳问题回答的性能。
发布时间: 2/18/2025
查看原文
作者: Kehua Chen, Jingping Jia
arXiv:2502.10624v1 宣告类型:交叉 摘要:网络规避检测旨在区分网络流量是否来自存在网络规避威胁的链路层,这是通过混淆检测系统中的数据流量签名来伪装数据流量的一种手段。由于之前的研究所做的工作存在各种各样的欺诈行为,我们提出了一种基于深度学习网络的架构来处理这一问题。在这篇论文中,我们从数据帧中提取关键信息作为关键特征,并特别提出使用双向长短期记忆(Bi-LSTM)神经网络,该网络在追踪序列信息方面表现出色,用于编码网络流的过去和未来特征。此外,我们在Bi-LSTM的底部引入了一个名为Softmax的分类器,具有选择正确类别的特性。所有实验结果表明,我们可以在网络规避检测中通过深度Bi-LSTM实现显著性能,其平均准确率达到了96.1%。
发布时间: 2/18/2025
查看原文
arXiv:2502.10614v1 交叉类型: cross 摘要:机器学习,尤其是卷积神经网络(CNNs),在医学图像分析中显示出潜力,特别是在使用胸部X光图像检测胸腔疾病方面。在这项研究中,我们评估了各种CNN架构,包括二分类、多标签分类以及ResNet50模型,以解决数据集不平衡、图像质量差异以及潜在偏差等挑战。我们引入了先进的预处理技术,如主成分分析(PCA)进行图像压缩,并提出了一种新的类别加权损失函数,以缓解数据集不平衡的问题。我们的结果突显了CNNs在医学成像领域的潜力,但强调必须解决数据集不平衡和图像采集方法差异等问题,以实现最优模型性能。
发布时间: 2/18/2025
查看原文
作者: Matthew Finlayson, Ilia Kulikov, Daneil M. Bikel, Barlas Oguz, Xilun Chen, Aasish Pappu
arXiv:2502.10596v1 交叉公告类型 摘要:大型语言模型(LLMs)在知识密集型自然语言处理(NLP)任务中经常表现出色,比如回答“最近的世界杯冠军是谁?”这是因为它们在训练期间学到的知识可能不足或过时。利用检索到的文档进行生成——这是一种称为检索增强生成(RAG)的技术——通过允许模型利用上下文信息来缓解这些不足。从业者可以通过针对检索增强指令进行微调来提高LLM的RAG性能,但必须小心,这可能会导致模型产生不希望的行为,如虚构信息。我们将这一退化归因于训练数据可能与模型分布不符,并且可能遭受质量问题的影响,例如检索和目标响应之间的不匹配(因为检索通常是在事后添加的)。我们提出了一种针对RAG增强的LLM进行训练的方法,使用自动生成的示范,从而避免使用分布外的文本进行训练,并将检索整合到LLM的响应中。我们通过对知识密集型问答(QA)任务进行评估,并展示了我们的方法教导LLM正确处理上下文检索并避免回答它可能会答错的问题。与传统的RA-IT方法相比,我们的方法在非RAG设置中防止了模型性能下降,同时在问答性能上表现出色。
发布时间: 2/18/2025
查看原文
作者: Megh Shukla, Aziz Shameem, Mathieu Salzmann, Alexandre Alahi
arXiv:2502.10587v1 交叉发布类型:cross 摘要:深度异方差回归模型通过神经网络来拟合目标分布的均值和方差。挑战来自于异方差性,这意味着方差是样本相关的且通常是未知的。因此,最近的方法通过无监督框架来学习方差,不幸的是,这种方法在计算复杂性和准确性之间产生了权衡。尽管可以通过监督来缓解这种权衡,但获取方差的标签并不容易。在这里,我们研究深度异方差回归中的自监督方差估计。我们探讨了两个问题:(1)假设存在真实标签,我们应如何监督方差?(2)在没有真实标签的情况下,我们如何获得伪标签?我们通过分析两种流行的度量标准:KL 散度和2- Wasserstein距离来解决(1)。随后,我们推导出一个针对非交换协方差的正态分布之间2-Wasserstein距离的上界,该上界具有优化稳定性。我们通过一个简单的基于邻域的启发式算法来解决(2),该算法产生了出乎意料有效的方差伪标签。我们在合成数据集和真实数据集上的实验表明,所提出的2-Wasserstein界限与伪标签注释相结合,导致了一种计算成本较低但准确的深度异方差回归方法。
发布时间: 2/18/2025
查看原文
作者: Zeyu Jia, Alexander Rakhlin, Tengyang Xie
arXiv:2502.10581v1 宣传类型: cross 摘要:随着大型语言模型的进化,区分过程监督和结果监督成为区分复杂推理任务中两种关键强化学习方法的关键。虽然过程监督在长期信用分配方面提供了直观的优势,但这些范式的精确关系仍然存在争议。传统智慧认为,由于轨迹级别的覆盖难题,结果监督本质上更具挑战性,因此在收集细粒度的过程监督数据方面投入了大量资源。 在本文中,我们朝着解决这一争论迈出了步伐。我们的主要定理表明,在标准数据覆盖假设下,通过结果监督进行强化学习与通过过程监督进行相比,在统计难度上最多仅在时间 horizon 的多项式因子上有所不同。这一结果的核心在于我们的新颖的路径变换测量引理——一个技术工具,它将基于回报的路径测量与步骤级别的分布偏移联系起来。此外,对于具有验证器或滚动部署能力的设置,我们证明任何策略的优势函数可以作为最优的过程奖励模型,从而在结果监督和过程监督之间建立了直接联系。这些发现表明,如果存在的话,结果监督和过程监督之间观察到的性能差距很可能源自算法局限性而非固有的统计困难,这可能会改变我们对强化学习中数据收集和算法设计方法的看法。
发布时间: 2/18/2025
查看原文
arXiv:2502.10577v1 交叉公告类型:cross 摘要:大型语言模型(LLMs)已经在英文和其他语言中被证明会传播甚至放大性别偏见,特别是在特定或受限的语境中。然而,目前还没有研究关注LLMs对通用指令的响应所传达的性别偏见,尤其是关于男性泛指(MG)。男性泛指是许多性别标记语言中的一种语言特征,它使用男性性别作为“默认”或所谓的中性性别来指代男女混合的群体,或指代性别无关或未知的人。大量的心理语言学研究表明,男性泛指不是中性的,而且会产生性别偏见。这项工作旨在分析私营和本地LLMs对于通用指令的响应中使用男性泛指的情况,并评估其性别偏见率。我们专注于法语,并从现有词典资源中创建了一个由人名词组成的数据库。我们筛选了现有的法语指令数据集以提取通用指令,并分析了6种不同LLM的响应结果。总体而言,我们发现约39.5%的LLM对于通用指令的响应存在性别偏见(约73.1%的响应中存在人名词时)。我们的研究结果还表明,LLMs在自发使用性别公平语言方面表现得比较犹豫。
发布时间: 2/18/2025
查看原文
作者: Hadi Zare, Mostafa Abbasi, Maryam Ahang, Homayoun Najjaran
arXiv:2502.10573v1 交叉类型:cross 摘要:目的 - 在业务流程管理(BPM)中,对下一个活动的准确预测是提高操作效率和决策制定的关键。当前的人工智能(AI)/机器学习(ML)模型在处理业务流程事件日志的复杂性和不断变化的特性时存在困难,难以在准确性和可解释性之间达到平衡。本文提出了一种基于熵的模型选择方法和DAW-Transformer,即动态属性感知变压器,以更好地整合所有属性并使用动态窗口提高准确性。 设计/方法 - 本文介绍了一种新颖的下一个活动预测方法,该方法使用过程熵评估事件日志的复杂性,并动态选择最合适的ML模型。提出了一种基于变压器的新架构,包括多头注意力机制和动态窗口机制,DAW-Transformer,以捕捉长期依赖关系并利用所有相关的事件日志属性。在六个公开数据集上进行了实验,并使用过程熵评估了性能。 发现 - 结果表明,该方法在这些公开可用的数据集上具有有效性。DAW-Transformer达到了更优的性能,尤其是在高熵数据集如Sepsis上比有限窗口多变压器高出4.69%,比基准CNN-LSTM-SAtt模型高出3.07%。对于低熵数据集如Road Traffic Fine,更简单的、更具可解释性的算法如随机森林几乎与复杂的DAW-Transformer表现相当,并且在处理不平衡数据和提高可解释性方面表现更佳。 原创性/价值 - 本文的核心在于提出的DAW-Transformer,它包含动态窗口并且考虑了所有相关属性。此外,基于熵的模型选择方法提供了一种稳健、准确且可解释的下一个活动预测解决方案。
发布时间: 2/18/2025
查看原文
作者: Aditya Dey, Jonas Kusch, Fadi Al Machot
arXiv:2502.10569v1 宣布类型: cross 摘要:在金融、经济和能源等领域,长期时间序列预测至关重要,准确且可靠地在长时间段内进行预测能够驱动战略决策制定。尽管基于机器学习的模型取得了进步,但延伸回看窗口中的时间噪声影响仍然未得到充分探索,这往往会降低模型性能和计算效率。在本文中,我们提出了一种新的框架,通过结合离散小波变换(DWT)和离散余弦变换(DCT)来进行噪声减少并提取稳健的长期特征。这些变换使得在时间和频域中从噪声中分离出有意义的时间模式成为可能。为进一步补充这一点,我们引入了一个轻量级低秩线性预测层,不仅可以减少残留噪声的影响,还可以提高内存效率。我们的方法在面对噪声输入时表现出色,显著降低了计算复杂度,并在不同基准数据集上达到了竞争力或最先进的预测性能。广泛的实验表明,所提出的框架在高噪声水平或不规则模式的情景中特别有效,使其非常适合实际的预测任务。源代码可在 https://github.com/forgee-master/HADL 获取。
发布时间: 2/18/2025
查看原文
arXiv:2502.10567v1 类型: cross 摘要: 近期,在设计用于时间序列数据的自监督学习(SSL)框架以减少对数据标签的依赖方面取得了显著进展。在这类工作中,基于层次对比学习的SSL框架引起了广泛关注,这些框架通过在多个分辨率上对比数据嵌入来学习表示。由于它们能够收集更多信息,因此在各种下游任务中表现出更好的泛化能力。然而,当时间序列数据长度非常长时,计算成本通常远高于其他SSL框架的成本。在本文中,为了应对这一挑战,我们提出了一种高效训练层次对比学习模型的方法。受每个分辨率的数据嵌入高度依赖性的启发,我们引入了一种基于重要性感知的分辨率选择训练框架,以降低计算成本。在实验中,我们证明了所提出的方法在广泛的时间序列分类性能评估中显著提高了训练时间,同时保持了原始模型的完整性。我们的代码可以在以下链接找到:https://github.com/KEEBVIN/IARS
发布时间: 2/18/2025
查看原文