LLM2D

arXiv 论文列表

作者: Haoyu Zhang, Wenbin Wang, Tianshu Yu
近年来,多模态情感分析(MSA)领域出现了一种新方向,旨在解决数据不完整问题。鉴于语言模态通常包含丰富的情感信息,我们将其视为主导模态,并提出了一种创新的语言主导抗噪学习网络(LNLN)来实现鲁棒的 MSA。提出的 LNLN 包含一个主导模态校正(DMC)模块和一个基于主导模态的多模态学习(DMML)模块,通过确保主导模态表示的质量,增强了模型在各种噪声场景下的鲁棒性。除了方法设计之外,我们还在随机数据缺失场景下进行了全面实验,在几个流行的数据集(例如,MOSI、MOSEI 和 SIMS)上使用多样化且有意义的设置,与文献中现有的评估相比,提供了额外的统一性、透明度和公平性。从经验上看,LNLN 始终优于现有的基线,在这些具有挑战性和广泛的评估指标中展现出优越的性能。
发布时间: 10/1/2024
查看原文
迁移学习是一种常见的做法,它可以减少训练神经网络所需的庞大数据量。它通过使用源数据集预训练模型,然后针对目标任务进行微调来实现。然而,并非所有源数据集都适合每个目标数据集,特别是对于时间序列而言。本文提出了一种新方法,用于选择和使用多个数据集来进行时间序列分类的迁移学习。具体来说,我们的方法将多个数据集组合成一个源数据集来预训练神经网络。此外,为了选择多个源,我们的方法基于形状词发现来衡量数据集的可迁移性,从而实现有效的源选择。虽然传统的可迁移性度量需要花费大量时间来预训练所有可能的源,以便为每种可能的架构选择源,但我们的方法可以通过一次简单的计算,反复用于每种可能的架构。使用该方法,我们证明了可以提高时间卷积神经网络 (CNN) 在时间序列数据集上的性能。
发布时间: 10/1/2024
查看原文
作者: Zhe Li, Wei Zhao, Yige Li, Jun Sun
影响函数旨在量化单个训练数据点对模型预测的影响。虽然传统机器学习模型中的影响函数已经进行了广泛的研究,但它们在大型语言模型 (LLM) 中的应用却十分有限。在这项工作中,我们进行了一项系统性的研究来解决一个关键问题:影响函数在 LLM 上是否有效?具体而言,我们评估了跨多个任务的影响函数,发现它们在大多数情况下始终表现不佳。我们进一步的调查表明,它们表现不佳的原因可能是: (1) 由于 LLM 的规模,在估计 iHVP 成分时不可避免地会出现近似误差,(2) 微调过程中的收敛性不确定,以及更重要的是,(3) 定义本身,因为模型参数的变化并不一定与 LLM 行为的变化相关。因此,我们的研究表明需要采用替代方法来识别有影响力的样本。为了支持未来的工作,我们的代码已在 https://github.com/plumprc/Failures-of-Influence-Functions-in-LLMs 上公开。
发布时间: 10/1/2024
查看原文
作者: Qin Liu, Wenjie Mo, Terry Tong, Jiashu Xu, Fei Wang, Chaowei Xiao, Muhao Chen
大型语言模型 (LLM) 的发展对包括网络搜索、医疗保健和软件开发在内的各个领域产生了重大影响。然而,随着这些模型规模的扩大,它们更容易受到网络安全风险的影响,尤其是后门攻击。通过利用 LLM 强大的记忆能力,攻击者可以通过操纵一小部分训练数据轻松地将后门注入 LLM,从而在预定义的触发器激活隐藏的后门时导致下游应用程序出现恶意行为。此外,指令微调和来自人类反馈的强化学习 (RLHF) 等新兴学习范式加剧了这些风险,因为它们严重依赖于众包数据和人类反馈,而这些数据和反馈并非完全受控。本文对 LLM 开发或推理过程中出现的 LLM 后门威胁进行了全面概述,并涵盖了用于减轻 LLM 后门威胁的防御和检测策略的最新进展。我们还概述了应对这些威胁的关键挑战,并重点介绍了未来研究的领域。
发布时间: 10/1/2024
查看原文
作者: Javier Galbally, Aleksandrs Cepilovs, Ramon Blanco-Gonzalo, Gillian Ormiston, Oscar Miguel-Hurtado, Istvan Sz. Racz
尽管一些初步研究在小型数据集上显示指纹识别技术在某些人口群体中存在一定程度的偏差,但仍缺乏足够的证据来理解性别、年龄或指纹类型等因素对指纹质量的影响,以及进而对指纹匹配准确率的影响。本研究针对这一尚待深入研究的课题,使用包含近 16,000 名受试者的 10 指纹印模的大规模运营数据。研究结果进一步揭示了指纹质量与人口统计特征之间的依赖关系,并表明在不同人口群体中,基于指纹的识别系统确实存在一定程度的性能差异。基于实验评估,本研究基于数据驱动证据指出了新的观察结果,提供了对这些观察结果的合理假设,并以可能采取的后续行动作为结论,这些行动有助于减少观察到的指纹质量差异。因此,本文可被视为进一步提高生物识别技术算法公平性和平等性的贡献。
发布时间: 10/1/2024
查看原文
作者: Eitan Wagner, Yuli Slavutsky, Omri Abend
尽管语言模型得分通常被视为概率,但它们作为概率估计器的可靠性主要通过校准来研究,而忽略了其他方面。特别是,尚不清楚语言模型是否针对不同的词跨度联合概率分配方式产生相同的值。我们的工作引入了一个新的框架,ConTestS(跨度一致性测试),它涉及统计测试以评估可互换完成和条件顺序之间的得分一致性。我们对发布后真实数据和合成数据进行了实验,以消除训练效果。我们的发现表明,掩码语言模型 (MLMs) 和自回归模型都表现出不一致的预测,自回归模型显示出更大的差异。更大的 MLMs 往往产生更一致的预测,而自回归模型则显示出相反的趋势。此外,对于两种模型类型,预测熵提供了对真实词跨度似然的见解,因此可以帮助选择最佳解码策略。我们的分析揭示的不一致性,以及它们与预测熵和模型类型之间的差异的联系,可以作为未来研究解决这些局限性的有用指南。
发布时间: 10/1/2024
查看原文
作者: Changyi Xiao, Xiangnan He, Yixin Cao
知识图谱嵌入 (KGE) 的关键在于选择合适的表示空间,例如点式欧几里得空间和复向量空间。本文从群论的角度提出了一种统一的嵌入视角,并将不确定性引入 KGE。我们的模型可以整合现有模型(即通用性),确保计算可处理(即效率),并享有复随机变量的表达能力(即表达能力)。核心思想是我们将实体/关系嵌入到对称群的元素中,即集合的排列。不同集合的排列可以反映嵌入的不同属性。对称群的群运算易于计算。具体而言,我们证明了许多现有模型的嵌入,点向量,可以看作对称群的元素。为了反映不确定性,我们首先将实体/关系嵌入到一组随机变量的排列中。排列可以将简单随机变量转换为复杂随机变量,以获得更大的表达能力,称为归一化流。然后,我们通过测量两个归一化流的相似度来定义评分函数,即 NFE。我们构建了几个实例化模型,并证明它们能够学习逻辑规则。实验结果证明了引入不确定性和我们模型的有效性。代码可在 https://github.com/changyi7231/NFE 获取。
发布时间: 10/1/2024
查看原文
作者: Shiben Liu, Huijie Fan, Qiang Wang, Weihong Ren, Yandong Tang
终身行人重识别 (LReID) 旨在从非平稳数据中持续学习,以匹配不同环境中的个体。每个任务都受到光照变化和人员相关信息(例如姿势和服装)的影响,导致任务间的域差距。目前的 LReID 方法侧重于任务特定知识,而忽略了域差距内固有的任务共享表示,限制了模型性能。弥合任务间的域差距对于提高抗遗忘和泛化能力至关重要,尤其是在训练期间访问有限的旧类别时。为了解决这些问题,我们提出了一种新颖的属性文本引导遗忘补偿 (ATFC) 模型,该模型探索了与身份相关的文本驱动全局表示和与身份无关的属性相关局部表示,用于 LReID。由于缺乏配对的文本图像数据,我们设计了一个属性文本生成器 (ATG) 来动态地为每个实例生成文本描述符。然后,我们引入了一个文本引导聚合网络 (TGA) 来探索每个身份的稳健文本驱动全局表示和知识转移。此外,我们提出了一种属性补偿网络 (ACN) 来研究属性相关的局部表示,这些表示可以区分相似的身份并弥合域差距。最后,我们开发了属性抗遗忘 (AF) 损失和知识转移 (KT) 损失来最小化域差距并实现知识转移,从而提高模型性能。大量的实验表明,我们的 ATFC 方法取得了优异的性能,在已知数据集上平均 mAP/R-1 的性能比现有的 LReID 方法高出 9.0% / 7.4%。
发布时间: 10/1/2024
查看原文
作者: Chenyou Fan, Chenjia Bai, Zhao Shan, Haoran He, Yang Zhang, Zhen Wang
扩散模型在模拟多任务轨迹方面展现出了其能力。然而,现有的多任务规划器或策略通常依赖于通过多任务模仿获得的特定任务演示,或者需要特定任务的奖励标签来通过强化学习 (RL) 促进策略优化。为了应对这些挑战,我们旨在开发一种多功能的扩散规划器,它可以利用包含任务无关次优轨迹的大规模劣质数据,并能够快速适应特定任务。在本文中,我们提出了 **SODP**,这是一种两阶段框架,它利用 **次优** 数据来学习 **扩散规划器**,该规划器可用于各种下游任务。具体来说,在预训练阶段,我们训练了一个基础扩散规划器,通过对多任务轨迹的多样性分布进行建模来提取一般的规划能力,这些轨迹可以是次优的,并且具有广泛的数据覆盖范围。然后,对于下游任务,我们采用基于 RL 的微调,并使用特定任务的奖励来快速优化扩散规划器,其目标是生成具有更高特定任务回报的动作序列。来自 Meta-World 和 Adroit 等多任务领域的实验结果表明,SODP 在仅使用少量用于奖励引导微调的数据的情况下,性能优于最先进的方法。
发布时间: 10/1/2024
查看原文
本文构建了基准,并评估了用于日语凭证光学字符识别 (OCR) 系统的错误校正方法的有效性。对于自动化处理来说,正确识别扫描的凭证文本(例如发票上的公司名称)至关重要。然而,由于印章等噪声的存在,完美识别非常复杂。因此,正确纠正错误的 OCR 结果至关重要。然而,目前尚无公开可用的日语 OCR 错误校正基准,相关方法也尚未得到充分的研究。在本研究中,我们通过现有服务衡量了日语凭证的文本识别准确率,并开发了一个 OCR 后校正基准。然后,我们提出了使用语言模型进行错误校正的简单基线,并验证了所提出的方法是否能够有效地纠正这些错误。实验结果表明,所提出的错误校正算法显著提高了整体识别准确率。
发布时间: 10/1/2024
查看原文