LLM2D

arXiv 论文列表

在航天器故障检测、隔离和恢复 (FDIR) 框架中,新兴的基于人工智能的方法正在克服传统阈值检查通常带来的局限性。 本研究旨在描述两种不同的方法,用于检测来自航天器姿态传感器多元时间序列中的卡住值。分析揭示了两种方法的性能差异,同时评论了它们的解释性和对不同场景的泛化能力。
发布时间: 9/27/2024
查看原文
尽管统计先验模型在各个领域得到广泛应用,但针对神经网络梯度的此类模型却长期被忽视。其固有的挑战在于高维结构和复杂的相互依赖关系,这使得有效建模变得复杂。在这项工作中,我们展示了大型语言模型 (LLM) 在零样本设置中充当梯度先验的潜力。我们通过考虑无损梯度压缩来检验这种特性,该压缩是分布式学习中的一个关键应用,严重依赖于精确的概率建模。为了实现这一点,我们引入了 LM-GC,这是一种将 LLM 与算术编码相结合的新方法。我们的技术将普通梯度转换为类似文本的格式,与它们的普通表示相比,令牌效率提高了高达 38 倍。我们确保这种数据转换与普通梯度的结构以及 LLM 通常识别的符号保持紧密一致。我们的实验表明,LM-GC 超越了现有的最先进的无损压缩方法,在各种数据集和架构上将压缩率提高了 10% 到 17.2%。此外,我们的方法显示出与量化和稀疏化等有损压缩技术具有良好的兼容性。这些发现突出了 LLM 作为有效处理梯度的模型的巨大潜力。我们将在出版后发布源代码。
发布时间: 9/27/2024
查看原文
作者: Zhixuan Liu, Zhanhui Zhou, Yuanfu Wang, Chao Yang, Yu Qiao
大型语言模型通常被微调以符合人类偏好,但微调大型模型在计算上非常密集且复杂。在这项工作中,我们引入了**集成价值引导**(IVG),这是一种使用隐式和显式价值函数分别在令牌和块级别引导语言模型解码的方法,从而在推理时有效地对齐大型语言模型。这种方法绕过了直接微调的复杂性,并且优于传统方法。从经验上看,我们证明了 IVG 在各种任务中的通用性。在受控情感生成和摘要任务中,我们的方法使用来自基于 $\texttt{gpt2}$ 的价值函数的推理时引导显著提高了大型模型的对齐。此外,在一个更具挑战性的指令遵循基准 AlpacaEval 2.0 中,我们表明,专门调整的和现成的价值函数都极大地提高了大型模型相对于 $\texttt{gpt-4-turbo}$ 的长度控制胜率(例如,对于 $\texttt{Mistral-7B-Instruct-v0.2}$,胜率从 $19.51\%$ 提高到 $26.51\%$,对于 $\texttt{Mixtral-8x7B-Instruct-v0.1}$,胜率从 $25.58\%$ 提高到 $33.75\%$,使用 Tulu 引导)。
发布时间: 9/27/2024
查看原文
作者: Jian Li, Haojing Huang, Yujia Zhang, Pengfei Xu, Xi Chen, Rui Song, Lida Shi, Jingwen Wang, Hao Xu
近年来,在强化学习中,用人类反馈(RLHF)方法来替代大型语言模型(LLMs)的奖励模型,如直接偏好优化(DPO)及其变体,引起了极大的兴趣。这些方法通常使用成对样本上的二元交叉熵机制,即分别最小化和最大化基于偏好或非偏好响应的损失。然而,这种训练策略虽然省略了奖励模型,但也忽略了不同响应中不同的偏好程度。我们假设这是阻碍LLMs充分理解人类偏好的一个关键因素。为了解决这个问题,我们提出了一种新的自监督偏好优化(SPO)框架,它构建了一个自监督偏好程度损失,并将其与对齐损失相结合,从而帮助LLMs提高其理解偏好程度的能力。我们在两个广泛使用的不同任务数据集上进行了大量的实验。结果表明,SPO可以无缝地与现有的偏好优化方法集成,并显著提升其性能,从而达到最先进的性能。我们还进行了详细的分析,以提供对SPO的全面见解,验证了其有效性。代码可在https://github.com/lijian16/SPO获取。
发布时间: 9/27/2024
查看原文
作者: Raja Kumar, Raghav Singhal, Pranamya Kulkarni, Deval Mehta, Kshitij Jadhav
深度多模态学习通过利用对比学习来捕捉跨模态的显式一对一关系,取得了显著成功。然而,现实世界中的数据往往表现出超越简单成对关联的共享关系。我们提出了 M3CoL,一种多模态混合对比学习方法,用于捕捉多模态数据中固有的细微共享关系。我们的主要贡献是一种基于混合的对比损失,通过将来自一个模态的混合样本与其来自其他模态的对应样本进行对齐,从而学习鲁棒表示,并捕捉它们之间的共享关系。对于多模态分类任务,我们引入了一个框架,该框架将融合模块与单模态预测模块集成在一起,用于训练过程中的辅助监督,并辅以我们提出的基于混合的对比损失。通过对不同数据集(N24News、ROSMAP、BRCA 和 Food-101)进行广泛的实验,我们证明了 M3CoL 有效地捕捉了共享的多模态关系,并在不同领域之间进行了泛化。它在 N24News、ROSMAP 和 BRCA 上优于最先进的方法,而在 Food-101 上取得了相当的性能。我们的工作强调了学习共享关系对于鲁棒多模态学习的重要性,为未来的研究开辟了有希望的途径。
发布时间: 9/27/2024
查看原文
忠实度可以说是评估可解释人工智能可靠性的最关键指标。在自然语言处理中,现有的忠实度评估方法充满了差异和偏差,往往无法捕捉到模型的真实推理。我们引入对抗性敏感性作为一种新颖的忠实度评估方法,重点关注解释器在模型受到对抗性攻击时的响应。我们的方法通过捕捉对对抗性输入变化的敏感性来衡量解释器的忠实度。这项工作解决了现有评估技术的重大局限性,此外,还从一个至关重要但尚未充分探索的范式量化了忠实度。
发布时间: 9/27/2024
查看原文
作者: Luiz Leite, Yuri Santo, Bruno L. Dalmazo, Andr\'e Riker
联邦学习 (FL) 已经成为一种能够保护用户数据隐私的机器学习方法。在 FL 中,客户端在本地数据集上训练机器学习模型,中央服务器聚合来自客户端的学习参数,训练全局机器学习模型,而无需共享用户数据。然而,现有技术表明,存在多种方法可以攻击 FL 系统。例如,反转或泄露梯度攻击可以高精度地找到 FL 训练阶段使用的本地数据集。本文提出了一种名为“带反馈混合的梯度深度泄露 (DLG-FB)”的方法,该方法能够改进反转梯度攻击,并考虑图像批次中通常存在的空间相关性。评估结果表明,攻击成功率和每次攻击图像的迭代次数分别提高了 19.18% 和 48.82%。
发布时间: 9/27/2024
查看原文
作者: Evangelia Christodoulou, Annika Reinke, Rola Houhou, Piotr Kalinowski, Selen Erkan, Carole H. Sudre, Ninon Burgos, Sofi\`ene Boutaj, Sophie Loizillon, Ma\"elys Solal, Nicola Rieke, Veronika Cheplygina, Michela Antonelli, Leon D. Mayer, Minu D. Tizabi, M. Jorge Cardoso, Amber Simpson, Paul F. J\"ager, Annette Kopp-Schneider, Ga\"el Varoquaux, Olivier Colliot, Lena Maier-Hein
医学影像正在引领医疗保健的人工智能转型。性能报告是确定哪些方法应该转化为临床实践的关键。通常,广泛的结论只是从平均性能值中推断出来。在本文中,我们认为这种常见的做法通常是一种误导性的简化,因为它忽略了性能的变异性。我们的贡献有三方面。(1) 分析了 2023 年发表的所有 MICCAI 分割论文 (n = 221),我们首先观察到超过 50% 的论文根本没有评估性能变异性。此外,只有一篇 (0.5%) 论文报告了模型性能的置信区间 (CI)。(2) 为了解决报告瓶颈,我们证明了分割论文中未报告的标准差 (SD) 可以通过平均 Dice 相似系数 (DSC) 的二阶多项式函数来近似。基于来自 56 个先前的 MICCAI 挑战的外部验证数据,我们证明了这种近似可以利用出版物中提供的信息准确地重建方法的 CI。(3) 最后,我们重建了 MICCAI 2023 分割论文的平均 DSC 周围的 95% CI。中位 CI 宽度为 0.03,是排名第一和排名第二方法之间中位性能差距的三倍。对于超过 60% 的论文,排名第二的方法的平均性能在排名第一的方法的 CI 内。我们得出结论,当前的出版物通常没有提供足够的证据来支持哪些模型有可能转化为临床实践。
发布时间: 9/27/2024
查看原文
作者: Qin Wang, Jianzhou Feng, Yiming Xu
显式且逻辑地展示从证据到答案的推理过程对于可解释问答 (QA) 至关重要。蕴涵树以结构化的方式展示了推理过程,这与大型语言模型中的自解释原则不同。现有的方法很少考虑树结构中层级之间和层级内部句子的语义关联,这容易导致组合中的明显错误。在这项工作中,我们提出了一种在控制器-生成器 (HiSCG) 框架下整合句子层次语义来解释答案的架构。HiSCG 设计了假设和事实之间的层次映射,区分了树构建中涉及的事实,并优化了单步蕴涵。据我们所知,我们是第一个注意到同一层和相邻层之间句子的层次语义以产生改进的人。所提出的方法在 EntailmentBank 数据集的所有三种设置上都取得了相当的性能。在两个域外数据集上的泛化结果也证明了我们方法的有效性。
发布时间: 9/27/2024
查看原文
作者: Rimvydas Rubavicius, Peter David Fagan, Alex Lascarides, Subramanian Ramamoorthy
本文探讨了一个具有挑战性的交互式任务学习场景,我们称之为“无意识重排”:在机器人对解决任务的关键概念一无所知的情况下,操纵刚体环境。我们提出了SECURE,一个交互式任务学习框架,旨在通过具身对话来解决此类问题,通过修复有缺陷的领域模型。通过对话,机器人发现并学会利用意想不到的可能性。使用SECURE,机器人不仅从用户在犯错时的纠正反馈中学习,而且学会制定策略性对话决策,以揭示关于解决指示任务的新概念的有用证据。这些能力共同使机器人能够使用新获得的知识泛化到后续任务。我们证明,一个语义感知的机器人——即它在学习和推理过程中利用句子和话语语义的逻辑结果——比缺乏此类能力的机器人更有效地学会解决无意识重排问题。
发布时间: 9/27/2024
查看原文