多模态深度学习通过整合文本、图像、音频和视频等多种信息来源来增强决策能力。为了开发可信赖的多模态方法,理解不确定性对这些模型的影响至关重要。我们提出了 LUMA,一个独特的基准数据集,包含来自 50 个类别的音频、图像和文本数据,用于从不确定和多模态数据中学习。它扩展了著名的 CIFAR 10/100 数据集,其中包含从三个音频语料库中提取的音频样本,以及使用 Gemma-7B 大型语言模型 (LLM) 生成的文本数据。LUMA 数据集能够控制注入不同类型和程度的不确定性,以实现和定制特定的实验和基准测试计划。LUMA 也以 Python 包的形式提供,其中包括用于生成数据集多个变体的函数,这些函数可以控制数据的多样性、每种模态的噪声量以及添加分布外样本。此外,还提供了一个基线预训练模型以及三种不确定性量化方法:蒙特卡罗 dropout、深度集成和可靠冲突多视图学习。这个全面的数据集及其基准测试工具旨在促进和支持可信赖且稳健的多模态深度学习方法的开发、评估和基准测试。我们预计 LUMA 数据集将帮助 ICLR 社区为安全关键应用设计更可信赖和稳健的机器学习方法。
本文介绍了 OmniHands,一种从单目或多视角输入中恢复交互式手部网格及其相对运动的通用方法。我们的方法解决了先前方法的两个主要局限性:缺乏针对各种手部图像输入的统一解决方案,以及忽略图像中两只手的空间关系。为了克服这些挑战,我们开发了一种具有新颖的标记化和上下文特征融合策略的通用架构,能够适应各种任务。具体来说,我们提出了一种关系感知双手绘制标记化(RAT)方法,将位置关系信息嵌入到手部标记中。通过这种方式,我们的网络可以处理单手和双手绘制输入,并明确利用手的相对位置,从而促进在现实场景中重建复杂的手部交互。由于这种标记化表示两只手的相对关系,因此它也支持更有效的特征融合。为此,我们进一步开发了一个 4D 交互推理(FIR)模块,以使用注意力机制在 4D 空间中融合手部标记,并将其解码为 3D 手部网格和相对时间运动。我们的方法在多个基准数据集上得到验证。在野外视频和现实场景中的结果证明了我们的方法在交互式手部重建方面具有优越的性能。更多视频结果可在项目页面找到:https://OmniHand.github.io。
人类依靠强大的归纳偏差从少量示例中学习,并从感官数据中抽象出有用的信息。在机器学习模型中灌输这种偏差已被证明可以提高其在各种基准测试中的性能,包括少样本学习、鲁棒性和一致性。然而,找到有效的训练程序来实现这一目标可能具有挑战性,因为心理丰富的训练数据(例如人类相似性判断)难以扩展,并且人类归纳偏差的贝叶斯模型对于复杂、现实的领域通常难以处理。在这里,我们通过引入生成相似性的贝叶斯概念来解决这一挑战,其中两个数据点被认为是相似的,如果它们可能来自相同的分布。该度量可应用于复杂的生成过程,包括概率程序。我们表明,即使其确切形式难以处理,生成相似性也可用于定义对比学习目标,从而能够学习表达特定归纳偏差的空间嵌入。我们通过展示该方法可用于捕获人类对几何形状的归纳偏差、区分由概率程序参数化的不同抽象绘图风格,以及捕获使泛化成为可能的抽象高级类别来证明该方法的效用。
受欧盟人工智能法案当前勘误案第 (67) 条的启发,我们提出并展示了针对表格数据集中歧视的措施和缓解策略。我们特别关注包含多个受保护属性的数据集,例如国籍、年龄和性别。这使得衡量和缓解偏差更加困难,因为许多现有方法都是针对单个受保护属性设计的。本文有两方面的贡献:首先,引入了新的歧视衡量标准。这些衡量标准与现有的衡量标准一起被归类在我们提出的框架中,指导研究人员和从业人员选择合适的衡量标准来评估底层数据集的公平性。其次,介绍了现有偏差缓解方法 FairDo 的一种新应用。我们表明,该策略可以通过转换数据集来缓解任何类型的歧视,包括交叉歧视。通过对真实世界数据集 (Adult, Bank, COMPAS) 进行实验,我们证明了对具有多个受保护属性的数据集进行去偏见是可能的。所有经过转换的数据集都显示出歧视减少,平均减少 28%。此外,与原始数据集相比,这些数据集在任何测试的机器学习模型的性能方面都没有显着下降。总之,这项研究证明了所用缓解策略的有效性,并为欧盟人工智能法案的实施的持续讨论做出了贡献。
配体结合对蛋白质结构及其体内功能的影响对现代生物医学研究和生物技术发展工作(如药物发现)具有重要意义。尽管最近引入了几种针对蛋白质-配体对接的深度学习 (DL) 方法和基准,但迄今为止,还没有先前的研究系统地研究对接方法在以下广泛适用的情况下行为:(1)使用预测的(无配体)蛋白质结构进行对接(例如,适用于未知结构);(2)将多个配体同时对接到给定的目标蛋白质(例如,用于酶设计);以及(3)没有关于结合口袋的先验知识(例如,用于未知口袋泛化)。为了更深入地了解对接方法在现实世界中的实用性,我们引入了 PoseBench,这是一个针对广泛适用的蛋白质-配体对接的第一个综合基准。PoseBench 使研究人员能够严格而系统地评估 DL 对接方法,用于无配体到有配体的蛋白质-配体对接和蛋白质-配体结构生成,使用单配体和多配体基准数据集,后者是我们在 DL 社区中首次引入的。根据经验,使用 PoseBench,我们发现:(1) DL 方法始终优于传统对接算法;(2) 最新的 DL 对接方法未能泛化到多配体蛋白质靶标;(3) 使用物理信息损失函数对蛋白质-配体复合物的不同簇进行训练 DL 方法是未来工作的一个有希望的方向。代码、数据、教程和基准结果可在 https://github.com/BioinfoMachineLearning/PoseBench 获取。
在医疗领域,许多场景都需要大型语言模型 (LLM) 的长文本生成能力。特别是在回答患者问题时,模型的回答必须传达事实性主张,因此需要一种自动方法来评估这些主张。为此,我们引入了 MedLFQA,这是一个使用与生物医学领域相关的长文本问答数据集重建的基准数据集。我们使用 MedLFQA 来促进对事实性的经济高效的自动评估。我们还提出了 OLAPH,这是一个简单而新颖的框架,它利用经济高效的多方面自动评估来构建合成偏好集并以我们偏好的方式回答问题。我们的框架使我们能够逐步训练 LLM,以减少幻觉并包含重要的医学主张。我们强调,即使在训练期间未使用的评估指标上,使用我们的 OLAPH 框架训练的 LLM 在事实性方面也表现出显著的性能提升。我们的研究结果表明,使用我们的 OLAPH 框架训练的 7B LLM 可以提供与医学专家答案在事实性方面相当的长答案。我们相信,我们的工作可以阐明在医疗领域评估 LLM 的长文本生成能力。我们的代码和数据集现已开放。
我们介绍了“未来你”,这是一种交互式、简短、单次、数字聊天干预措施,旨在提高未来自我延续性——个人与时间上遥远的未来自我之间的联系程度——这种特征与心理健康和福祉呈正相关。我们的系统允许用户与一个可亲但由 AI 驱动的未来自我的虚拟版本聊天,该版本针对用户的未来目标和个人品质进行了调整。为了使对话更加真实,该系统会生成一个“合成记忆”——每个用户的独特背景故事——它在用户当前年龄(18-30 岁之间)和他们 60 岁时的生活之间创造了一条线索。“未来你”角色还采用了用户当前自我年龄增长的图像的化身。在与“未来你”角色进行短暂互动后,用户报告说焦虑感降低,未来自我延续性增强。这是第一项成功证明使用个性化的 AI 生成角色来提高用户未来自我延续性和福祉的研究。
大型语言模型 (LLM) 已经取代了传统方法,在众多自然语言处理任务中取得了显著成果。然而,在命名实体识别 (NER) 任务中,现有的基于 LLM 的方法仍然面临着挑战。本文建立了通过影响函数识别有害训练样本与异常梯度检测之间的桥梁。这种转换不仅提供了一种直接且无海森矩阵的公式,而且还揭示了梯度在样本影响中的作用。通过系统性的实证评估,我们首先在合成数据集上验证了我们提出的异常梯度分析方法的假设。然后,我们证明了它在检测视觉模型中的错误标记样本以及选择数据样本以提高自然语言处理 Transformer 模型性能方面的有效性。我们还将它的应用扩展到为微调大型语言模型识别有影响力的样本。
快速模拟动力学系统是许多科学和工程应用中的一个关键挑战,例如天气预报、疾病控制和药物发现。随着深度学习的最新成功,人们越来越关注使用神经网络以数据驱动的方式求解微分方程。然而,现有的方法要么局限于特定类型的微分方程,要么需要大量数据进行训练。这限制了它们在许多现实世界应用中的实用性,因为数据通常稀缺或获取成本高昂。为了解决这个问题,我们提出了一种新的多模态基础模型,名为\textbf{FMint}(基于\textbf{In}i\textbf{t}ialization的\textbf{F}oundation \textbf{M}odel),以弥合人类设计模型和数据驱动模型之间的差距,用于快速模拟动力学系统。FMint 建立在仅解码器 Transformer 架构之上,并使用上下文学习,利用数值和文本数据来学习动力学系统的通用误差校正方案,使用来自传统求解器的粗略解的提示序列。该模型在 40K 个 ODE 的语料库上进行预训练,我们在具有混沌行为和高维度的具有挑战性的 ODE 上进行了大量实验。我们的结果证明了所提出的模型在准确性和效率方面相对于经典数值求解器的有效性,突出了 FMint 作为动力学系统通用求解器的潜力。我们的方法比最先进的动力系统模拟器实现了 1 到 2 个数量级的精度改进,并且与传统的数值算法相比,实现了 5 倍的加速。FMint 的代码可在 \url{https://github.com/margotyjx/FMint} 获取。
大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...