这项工作致力于解决大型语言模型 (LLM) 的遗忘问题,目标是在保留模型基本功能的同时,移除不需要的数据影响和相关的模型能力(例如,受版权保护的数据或有害内容生成),而无需从头开始重新训练。尽管对 LLM 遗忘的需求日益增长,但仍然缺乏一个有原则的优化框架。为此,我们重新审视了最先进的方法——负偏好优化 (NPO),并确定了参考模型偏差的问题,这可能会削弱 NPO 的有效性,尤其是在遗忘难度不同的数据时。鉴于此,我们提出一个简单而有效的遗忘优化框架,称为 SimNPO,它表明在移除对参考模型的依赖(通过简单偏好优化的视角)方面,“简单性”有利于遗忘。我们还利用马尔可夫链混合模型的分析,对 SimNPO 的优势进行了更深入的探讨。此外,我们还进行了大量的实验,验证了 SimNPO 在 TOFU 和 MUSE 等基准测试中优于现有的遗忘基线,并且对再学习攻击具有鲁棒性。代码可在 https://github.com/OPTML-Group/Unlearn-Simple 获取。
近年来,训练数据归因 (TDA) 方法作为神经网络可解释性的一种很有前景的方向而出现。虽然围绕 TDA 的研究蓬勃发展,但对归因的评估却投入有限。类似于传统特征归因方法评估指标的发展,已经提出了几个独立的指标来评估 TDA 方法在各种环境下的质量。然而,缺乏一个允许系统比较的统一框架,限制了对 TDA 方法的信任,并阻碍了其广泛应用。为了解决这一研究空白,我们引入了 Quanda,这是一个旨在促进 TDA 方法评估的 Python 工具包。Quanda 不仅提供了一套全面的评估指标,还提供了一个统一的接口,可以与不同存储库中现有的 TDA 实现无缝集成,从而实现系统的基准测试。该工具包易于使用、经过充分测试、文档齐全,并作为开源库在 PyPi 和 https://github.com/dilyabareeva/quanda 上提供。
加密货币的使用导致洗钱等非法活动增多,传统的基于规则的方法在检测和预防此类活动方面的有效性越来越低。本文提出了一种新方法来解决这个问题,该方法将具有残差网络架构的图注意力网络 (GAT-ResNet) 应用于检测区块链中与反洗钱/反恐融资 (AML/CFT) 相关的非法交易。我们使用椭圆比特币交易数据集训练了各种模型,包括逻辑回归、随机森林、XGBoost、GCN、GAT 和我们提出的 GAT-ResNet 模型。我们的结果表明,GAT-ResNet 模型在准确性、可靠性和可扩展性方面有可能优于现有的图网络模型。我们的研究揭示了图相关的机器学习模型在改进打击金融犯罪工作方面的潜力,并为该领域的进一步研究奠定了基础。
心理健康疗法包含复杂的对话流程,其中患者和治疗师持续协商接下来应该谈论什么。例如,治疗师可能会试图转移对话方向以保持治疗过程的进行并避免停滞,或者患者可能会将讨论推向他们想要关注的问题。 这种患者和治疗师的引导如何与他们之间关系的发展和质量相关?为了回答这个问题,我们引入了一种概率度量,用于衡量特定话语在多大程度上立即改变了对话流程,同时考虑了这种改变的意图和实际实现。我们将此新度量应用于一个非常大型且广泛使用的在线治疗平台中,对多次疗程中患者与治疗师关系的发展进行刻画。我们的分析表明:(1)随着他们关系的发展,患者对对话方向的控制通常会相对于治疗师增加;(2)在前几次疗程中控制力较弱的患者最终表达对治疗师不满并终止关系的可能性显著更高。
循环神经网络(RNN)相较于基于Transformer的语言模型的一个重要优势在于其关于序列长度的线性计算复杂度,这使得它们在推理过程中处理长序列的速度快得多。然而,大多数公开可用的RNN(例如,Mamba和RWKV)是在少于10K个token的序列上训练的,它们在更长上下文中的有效性迄今为止仍然令人不满意。本文研究了RNN无法处理长上下文的原因,并提出了一些关键的缓解方法。我们考察了将最先进的RNN应用于长上下文时的两个实际问题:(1)无法推断到比训练长度更长的输入,以及(2)内存容量的上限。为了解决第一个问题,我们首先研究了*状态崩溃*(SC),这是一种导致序列长度在训练期间未遇到的性能严重下降的现象。通过对照实验,我们将此归因于由于循环状态对于训练长度参数过多而导致的过拟合。对于第二个问题,我们在长文档上训练了一系列Mamba-2模型,以经验估计语言建模和密钥检索中的循环状态容量。然后,提出了三种SC缓解方法来提高Mamba-2的长度泛化能力,允许模型处理超过100万个token而不会出现SC。我们还发现,密钥检索中的循环状态容量随状态大小呈指数级缩放,并且我们通过实验证明了一个具有近乎完美密钥检索精度的3.7亿参数的Mamba-2模型,其上下文长度为256K。这表明基于RNN的长上下文建模具有光明的前景。
基于数据驱动的决策日益增多,突显了人们需要更直观的方式来访问和分析存储在关系数据库中的信息。然而,SQL知识的要求长期以来一直是阻碍非技术用户的一大障碍。本文介绍了一种创新的解决方案,它利用生成式人工智能来弥合这一差距,使用户能够使用自然语言查询数据库。我们的方法将自然语言查询自动转换为SQL,确保语法和语义的正确性,同时还从检索到的数据中生成清晰的自然语言响应。通过简化用户与数据库之间的交互,这种方法使缺乏技术专长的个人能够直接有效地参与数据处理,从而实现宝贵见解的民主化并提高生产力。
大型语言模型(LLM)的自动基准测试,例如AlpacaEval 2.0、Arena-Hard-Auto和MT-Bench,因其相较于人工评估在成本效益和可扩展性方面的优势而日益流行,成为评估语言模型的常用方法。在这些基准测试中取得高胜率可以显著提升新发布语言模型的宣传效果。这种宣传效益可能会促使一些技巧的出现,例如操纵模型输出长度或风格以提高胜率,即使已经开发出多种机制来控制长度和解耦风格以降低可操纵性。然而,我们证明,即使是始终输出恒定响应(与输入指令无关)的“空模型”也能欺骗自动基准测试并获得顶级胜率:在AlpacaEval 2.0上获得86.5%的LC胜率;在Arena-Hard-Auto上获得83.0分;在MT-Bench上获得9.55分。此外,精心设计的作弊输出具有可迁移性,因为我们假设这些基准测试的指令(例如,AlpacaEval 2.0的805个样本)是私有的,无法访问。虽然我们的实验主要属于概念验证,但对手可以使用LLM生成更难以察觉的作弊响应,从而不道德地从高胜率和宣传效益中获益。我们的研究结果呼吁开发反作弊机制,以确保自动基准测试的可靠性。代码可在https://github.com/sail-sg/Cheating-LLM-Benchmarks获取。
本文比较了传统机器学习方法、基于编码器的模型和大型语言模型 (LLM) 在检测抑郁症和焦虑症方面的有效性。我们考虑了五个数据集,每个数据集在格式和用于定义目标病理类别的方法上有所不同。我们测试了基于语言特征的 AutoML 模型、几种基于编码器的 Transformer 变体(例如 BERT)以及最先进的 LLM 作为病理分类模型。结果表明,LLM 的性能优于传统方法,尤其是在数据嘈杂且较小、训练样本的文本长度和类型差异很大的情况下。然而,当使用来自临床确诊抑郁症患者的文本进行训练时,心理语言学特征和基于编码器的模型可以达到与语言模型相当的性能,突出了它们在目标临床应用中的潜在有效性。
这篇简短的摘要描述了一种针对COSAS 2024竞赛的解决方案,该竞赛的任务是从组织病理学图像块中进行跨器官和跨扫描仪的腺癌分割。这项任务的主要挑战在于,当改变采集设备(显微镜)时,以及当组织来自不同器官时,会遇到明显的域偏移。COSAS提出的两项任务是:在一个包含来自三个不同器官的图像的数据集上进行训练,然后预测来自未见器官的数据(数据集T1)的分割结果;以及在一个包含来自三个不同扫描仪的图像的数据集上进行训练,然后分割用另一个未见显微镜采集的图像。我们尝试通过三种不同的策略来弥合域偏移差距:针对每个数据集进行标准训练;在数据集T1上进行预训练,然后在数据集T2上进行微调(反之亦然,我们称之为“跨任务预训练”策略);以及在数据集A和B的组合上进行训练。我们的实验表明,跨任务预训练是解决域泛化问题的更有前景的方法。
近年来,电子商务行业对先进的AI驱动客户服务解决方案的需求迅速增长。传统的云端模型在延迟、个性化服务和隐私方面存在局限性。此外,终端设备通常缺乏有效部署大型AI模型的计算资源。本文提出了一种创新的端云协同(ECC)框架,用于电子商务中的高级AI客户服务。该框架通过深入挖掘云模型的泛化潜力并有效利用终端芯片的计算资源,整合大型云模型和中小型端模型的优势,在一定程度上缓解了计算资源的压力。具体来说,大型云模型充当教师,指导和促进端模型的学习,这显著降低了端模型对大规模、高质量数据的依赖,从而解决了传统端模型训练中的数据瓶颈,为行业应用的快速部署提供了一种新的范式。此外,我们引入了一种在线演化学习策略,使端模型能够在云模型的指导和实时用户反馈的基础上持续迭代和升级。该策略确保模型能够灵活适应应用场景的快速变化,同时通过本地微调避免敏感信息的上传,实现了隐私保护和个性化服务的双重目标。最后,我们进行了深入的语料库收集(例如,数据组织、清洗和预处理),并训练了一个基于ECC的电子商务客户服务行业专用模型。