本文提出了一种新颖的训练方法,以提高抽取式问答 (EQA) 模型的鲁棒性。以往研究表明,现有的模型在使用包含不可回答问题的 EQA 数据集进行训练时,在面对分布偏移和对抗性攻击时表现出明显的鲁棒性不足。尽管如此,在 EQA 训练数据集中包含不可回答的问题对于确保现实世界中的可靠性至关重要。我们提出的训练方法包括一个针对 EQA 问题的全新损失函数,并挑战了众多 EQA 数据集中存在的隐含假设。使用我们的方法训练的模型在保持域内性能的同时,在域外数据集上取得了显著的改进。这导致所有测试集的 F1 分数总体提高了 5.7%。此外,我们的模型在面对两种类型的对抗性攻击时表现出显著增强的鲁棒性,与默认模型相比,性能下降仅约三分之一。
二元分类任务中的类别不平衡问题仍然是机器学习领域的一大挑战,它往往会导致对少数类别的性能低下。本研究全面评估了三种广泛使用的处理类别不平衡的策略:合成少数类过采样技术(SMOTE)、类别权重调整和决策阈值校准。我们将这些方法与 15 种不同的机器学习模型和来自不同领域的 30 个数据集的无干预基线场景进行了比较,总共进行了 9,000 次实验。性能主要使用 F1 分数进行评估,但我们的研究还跟踪了其他 9 个指标的结果,包括 F2 分数、精确率、召回率、Brier 分数、PR-AUC 和 AUC。我们的结果表明,所有三种策略通常都优于基线,其中决策阈值校准成为最一致有效的技术。然而,我们观察到不同数据集之间最佳性能方法存在很大差异,这突出了针对特定问题测试多种方法的重要性。本研究为处理不平衡数据集的从业人员提供了宝贵的见解,并强调了在评估类别不平衡处理技术时需要进行特定于数据集的分析。
大型语言模型 (LLM) 通过检索增强生成 (RAG) 的增强,为网络搜索引入了一种新的范式。然而,LLM 的有限上下文感知能力降低了它们在 RAG 任务上的性能。现有的增强上下文感知能力的方法通常效率低下,在推理过程中会产生时间或内存开销,而且许多方法都是针对特定的位置嵌入而设计的。在本文中,我们提出了位置嵌入无关的注意力重加权 (PEAR),它在不增加推理开销的情况下增强了 LLM 的上下文感知能力。具体来说,在专注于上下文复制的代理任务上,我们首先检测到抑制模型上下文感知能力并因此降低 RAG 性能的注意力头。为了减弱这些注意力头的影响,我们使用可学习的系数对其输出进行重新加权。LLM(参数固定)通过调整这些系数来最小化代理任务上的损失进行优化。因此,系数被优化为小于 1 的值,从而降低了它们抑制 RAG 性能的倾向。在推理过程中,优化的系数被固定以重新加权这些注意力头,而与具体的任务无关。我们提出的 PEAR 与之前的方法相比具有两大优势:(1) 它在内存使用或推理时间方面没有引入额外的推理开销,同时在各种 RAG 任务上以更高的精度和效率超越了竞争基线。(2) 它独立于位置嵌入算法,确保更广泛的适用性。
机器遗忘学习 (MU) 已经出现,旨在增强深度神经网络的隐私和可信度。近似 MU 是一种适用于大型模型的实用方法。我们对近似 MU 的研究从识别最速下降方向开始,在参数邻域内最小化输出 Kullback-Leibler 散度以达到精确的 MU。这个探测方向分解为三个部分:加权遗忘梯度上升、微调保留梯度下降和权重显著性矩阵。这种从欧几里得度量导出的分解包含了大多数现有的基于梯度的 MU 方法。然而,坚持欧几里得空间可能会导致次优的迭代轨迹,因为忽略了输出概率空间的几何结构。我们建议将遗忘更新嵌入到由剩余几何结构渲染的流形中,并结合来自剩余数据的二阶 Hessian 矩阵。这有助于防止有效遗忘干扰保留的性能。然而,为大型模型计算二阶 Hessian 矩阵是不可行的。为了有效地利用 Hessian 调制的优势,我们提出了一种快慢参数更新策略来隐式逼近最新的显著遗忘方向。我们的方法不受特定模态约束的限制,适用于计算机视觉遗忘任务,包括分类和生成。大量的实验验证了我们的有效性和效率。值得注意的是,我们的方法成功地在 ImageNet 上使用 DiT 执行了类别遗忘,并在 CIFAR-10 上使用 DDPM 遗忘了一个类别,只需 50 步,而以前的方法需要数千步。
受限强化学习 (RL) 已成为 RL 领域的一个重要研究方向,其中将约束与奖励相结合对于提高各种控制任务的安全性和性能至关重要。在建筑物供暖系统中,在保持居民热舒适性的同时优化能效可以直观地表述为一个受限优化问题。然而,用 RL 解决它可能需要大量数据。因此,一个准确且通用的模拟器是首选。在本文中,我们提出了一种新型建筑模拟器 I4B,它提供了不同用途的接口,并将一种名为具有线性平滑对数障碍函数的受限 Soft Actor-Critic (CSAC-LB) 的无模型受限 RL 算法应用于供暖优化问题。与基线算法的基准测试表明,CSAC-LB 在数据探索、约束满足和性能方面具有效率。
理解婴儿哭声的含义对于年轻父母照护新生儿来说是一个重大挑战。背景噪音的存在和缺乏标记数据在开发能够检测哭声并分析其潜在原因的系统方面带来了实际挑战。本文提出了一种新颖的数据驱动框架“InfantCryNet”来完成这些任务。为了解决数据稀缺问题,我们采用预训练音频模型将先验知识纳入我们的模型。我们建议使用统计池化和多头注意力池化技术来更有效地提取特征。此外,知识蒸馏和模型量化被应用于提高模型效率并减少模型大小,更好地支持移动设备中的工业部署。在真实数据集上的实验表明,所提出的框架性能优于现有最先进的基线,分类准确率提高了 4.4%。模型压缩有效地将模型大小减少了 7%,而不会影响性能,并且在准确率仅下降 8% 的情况下,模型大小最多减少了 28%,为模型选择和系统设计提供了实用见解。
快速准确地检测鱼类生化成分是现实世界中的一项重要任务,它有助于海鲜行业优化利用和提取高价值产品。拉曼光谱提供了一种很有前景的解决方案,可以通过机器学习回归模型将拉曼光谱与生化参考数据关联起来,从而快速、无损地分析鱼类的生化成分。本文研究了不同的回归模型来解决这一任务,并提出了一种新的卷积神经网络 (CNN) 设计,用于联合预测水分、蛋白质和脂类产量。据我们所知,我们是第一个成功地利用 CNN 分析基于非常小的拉曼光谱数据集的鱼类生化成分的研究。我们的方法将定制的 CNN 架构与全面的数据准备程序相结合,有效地减轻了极端数据稀缺带来的挑战。结果表明,我们的 CNN 可以显著优于两种最先进的 CNN 模型和多种传统机器学习模型,为准确、自动化地分析鱼类生化成分铺平了道路。
指令数据对于提升大型语言模型(LLMs)的能力至关重要,使其能够与人类水平的表现相一致。最近的研究 LIMA 表明,对齐本质上是一个过程,模型通过利用预训练的知识和技能,适应指令的交互风格或格式来解决各种任务。因此,对于指令数据而言,最重要的方面是它所代表的任务,而不是特定的语义和知识信息。指令的潜在表示在某些与指令相关的任务中发挥作用,例如数据选择和演示检索。然而,它们始终源于文本嵌入,包含影响任务类别表示的整体语义信息。在这项工作中,我们引入了一个新的概念,指令嵌入,并构建了指令嵌入基准(IEB)用于其训练和评估。然后,我们提出了一种基于提示的指令嵌入(PIE)方法,使表示更关注任务。在 IEB 上使用两个设计的任务对 PIE 与其他嵌入方法进行评估,结果表明它在准确识别任务类别方面具有优越的性能。此外,指令嵌入在四个下游任务中的应用展示了其有效性和对与指令相关任务的适用性。
脑部 CT 报告生成对于辅助医生诊断颅脑疾病具有重要意义。最近的研究集中在处理视觉和文本病理特征之间的一致性,以提高报告的连贯性。然而,存在一些挑战:1)冗余的视觉表示:3D 扫描中大量的无关区域分散了模型对突出视觉语境的表示。2)语义表示偏移:有限的医学语料库导致模型难以将学习到的文本表示转移到生成层。本研究提出了一种病理线索驱动的表示学习 (PCRL) 模型,以基于病理线索构建跨模态表示,并自然地将其应用于准确的报告生成。具体来说,我们从分割区域、病理实体和报告主题的角度构建病理线索,以全面掌握视觉病理模式并学习跨模态特征表示。为了使表示适应文本生成任务,我们利用具有任务定制指令的统一大型语言模型 (LLM),弥合了表示学习和报告生成之间的差距。这些精心设计的指令使 LLM 能够灵活地跨任务微调,并平滑地将语义表示转移到报告生成。实验表明,我们的方法优于以前的方法,并实现了最先进的性能。我们的代码可在 https://github.com/Chauncey-Jheng/PCRL-MRG 上获取。
分析图的需求在各个领域都无处不在,从社交网络到生物研究和推荐系统。因此,赋予大型语言模型 (LLM) 处理图的能力是迈向更高级通用智能的重要一步。然而,当前针对图分析的 LLM 基准测试要求模型直接推理描述图拓扑结构的提示,因此仅限于只有几十个节点的小型图。相比之下,人类专家通常会根据流行的库编写程序来解决任务,因此可以处理不同规模的图。为此,自然会产生一个问题:LLM 是否可以像专业人士一样分析图?在本文中,我们介绍了 ProGraph,一个手动构建的基准测试,包含 3 类图任务。该基准测试期望基于编程的解决方案,而不是直接推理原始输入。我们的发现表明,当前 LLM 的性能并不令人满意,最佳模型的准确率仅为 36%。为了弥补这一差距,我们提出了 LLM4Graph 数据集,其中包括基于 6 个广泛使用的图库的爬取文档和自动生成的代码。通过将闭源 LLM 与文档检索相结合,并在代码上微调开源 LLM,我们展示了其准确率的 11-32% 的绝对提升。我们的结果强调了 LLM 在处理结构化数据方面的能力仍未得到充分探索,并展示了 LLM4Graph 在增强 LLM 图分析能力方面的有效性。基准测试、数据集和增强的开源模型可在 https://github.com/BUPT-GAMMA/ProGraph 获取。