在外科技能评估中,客观结构化技术技能评估(OSATS 分数)和全球评级量表(GRS)是用于评估外科医生在培训期间表现的既定工具。这些指标与他们表现的反馈相结合,使外科医生能够提高并达到实践标准。最近关于开源数据集 JIGSAW 的研究集中在从运动学信号、视频数据或两者的组合回归 GRS 分数,该数据集包含 GRS 和 OSATS 标签。在本文中,我们认为,单独回归 GRS 分数(一个无量纲值)过于限制,并且整个手术试验中的变化没有明显的临床意义。为了解决这一差距,我们开发了一个循环变换器模型,该模型通过将模型的隐藏状态与从运动学信号得出的五个 OSATS 分数相关联,来输出外科医生在整个训练课程中的表现。这些分数被平均和聚合以产生 GRS 预测,从而能够评估模型相对于最先进 (SOTA) 的性能。我们报告了斯皮尔曼相关系数 (SCC),表明我们的模型在所有任务中都优于 SOTA 模型,除了在留一主体外 (LOSO) 方案下的缝合(SCC 0.68-0.89),同时在留一用户外 (LOUO) 方案下的缝合和跨任务中获得了可比较的性能(SCC 0.45-0.68),并在穿针方面超过了 SOTA(0.69)。我们认为,将最终的 OSATS 分数与外科医生手术过程中的短时间实例相关联,比单个 GRS 分数更有临床意义。这种方法还使我们能够将定量预测转化为定性反馈,这对于任何自动外科技能评估流程都是至关重要的。一位资深外科医生验证了我们模型的行为,并在 77%(p = 0.006)的时间内同意了半监督预测。
针对自动驾驶车辆中的点云数据识别,深度学习网络的适配面临着数据集和传感器技术差异带来的挑战,突出了自适应技术的必要性,以确保不同条件下的准确性。本文介绍了 3D 自适应结构卷积网络 (3D-ASCN),这是一个用于 3D 点云识别的尖端框架。它结合了 3D 卷积核、结构树结构和自适应邻域采样,以有效地提取几何特征。该方法获得了域不变特征,并在各种点云数据集上展示了鲁棒且适应性强的性能,确保了在不同传感器配置下的兼容性,无需参数调整。这突出了其在显著提高自动驾驶车辆技术可靠性和效率方面的潜力。
癌症生存预测是一项具有挑战性的任务,涉及分析全切片图像 (WSI) 中的肿瘤微环境。以往的方法无法有效地捕获 WSI 局部区域内实例之间的复杂交互特征。此外,现有的基于 WSI 的癌症生存预测方法往往无法提供更好的临床意义上的预测。为了克服这些挑战,我们提出了一种稀疏上下文感知多实例学习 (SCMIL) 框架,用于预测癌症生存概率分布。SCMIL 创新性地根据形态特征和空间位置信息将图像块分割成不同的簇,随后利用稀疏自注意力机制从上下文感知的角度来识别这些图像块之间的关系。考虑到许多图像块与任务无关,我们引入了一个可学习的图像块过滤模块 SoftFilter,它确保只考虑任务相关图像块之间的交互。为了增强我们预测的临床相关性,我们提出了一种基于寄存器的混合密度网络,用于预测单个患者的生存概率分布。我们在来自癌症基因组图谱 (TCGA) 的两个公共 WSI 数据集上评估了 SCMIL,重点关注肺腺癌 (LUAD) 和肾透明细胞癌 (KIRC)。我们的实验结果表明,SCMIL 在生存预测方面优于当前最先进的方法,提供了更具临床意义和可解释性的结果。我们的代码可在 https://github.com/yang-ze-kang/SCMIL 上获取。
我们研究了大型语言模型(LLMs)如何通过理由来解释其生成结果,理由是指从输入文本中提取的一组标记,反映了 LLMs 的决策过程。具体来说,我们系统地研究了使用两种方法得出的理由:(1)流行的基于提示的方法,其中提示用于引导 LLMs 生成理由,以及(2)基于技术属性的方法,该方法利用注意力或梯度来识别重要标记。我们的分析跨越了三个具有带注释理由的分类数据集,涵盖了性能水平不同的任务。虽然基于提示的自我解释被广泛使用,但我们的研究表明,这些解释并不总是像基于属性的解释那样与人类理由“一致”。更重要的是,微调 LLMs 以提高分类任务准确性并不会提高基于提示的理由的一致性。然而,它确实显著提高了基于属性的方法(例如,InputXGradient)的一致性。更重要的是,我们表明,基于提示的自我解释也比基于属性的解释更“不忠实”,无法提供模型决策过程的可靠说明。为了评估忠实度,与先前排除错误分类示例的研究不同,我们评估所有实例,并还检查微调和准确性对一致性和忠实度的影响。我们的发现表明,早期研究中报道的不确定的忠实度结果可能源于较低的分类准确性。这些发现强调了对 LLM 理由进行更严格、更全面的评估的重要性。
合成长上下文 LLM 基准测试(例如,“大海捞针”)仅测试表层检索能力,但长上下文 LLM 在处理书籍长度的输入时,其检索、综合和推理能力如何?我们通过创建 NoCha 来解决这个问题,NoCha 是一个包含 1001 对关于 67 本最近出版的英语虚构书籍的真假主张的数据集,这些主张之间只有细微差别,由这些书籍的人类读者编写。与现有的长上下文基准测试相比,我们的标注者确认,NoCha 中大部分主张对都需要对整本书进行全局推理才能验证。我们的实验表明,虽然人类读者可以轻松完成这项任务,但对于我们评估的十个长上下文 LLM 来说,这极具挑战性:没有一个开放权重模型的表现超过随机机会(尽管它们在合成基准测试中表现出色),而 GPT-4o 的准确率最高,为 55.8%。进一步分析表明:(1)平均而言,模型在仅需句子级检索的对上表现明显优于全局推理的对;(2)模型为其决策生成的解释往往不准确,即使对于正确标记的主张也是如此;(3)模型在包含大量世界构建的科幻小说上表现明显更差。NoCha 中提出的方法允许基准数据集的演变,并可以轻松分析未来的模型。
现有的零样本跨语言命名实体识别方法需要大量目标语言的先验知识,这对于资源匮乏的语言来说是不切实际的。本文提出了一种基于国际音标(IPA)的音素表示的命名实体识别新方法,以弥合不同语言表示之间的差距。实验表明,该方法在极端资源匮乏的语言中显著优于基线模型,平均 F1 分数最高(46.38%),标准差最低(12.67%),特别是在非拉丁字母脚本中展现出其鲁棒性。代码已发布在 https://github.com/Gabriel819/zeroshot_ner.git。
直接从偏好中对齐(DAP)已成为一种很有前景的范式,用于将大型语言模型(LLM)与从预先收集的离线偏好数据集中获得的人类愿望进行对齐。虽然最近的研究表明现有的离线 DAP 方法可以从在线训练样本中直接获益,但我们强调需要开发专门的在线 DAP 算法来充分利用在线训练的优势。具体而言,我们发现,学习到的 LLM 应该遵循收集训练样本的行为 LLM 的邻近性。为此,我们提出了在线偏好优化,它与行为 LLM(BPO)的邻近性,强调了为 LLM 对齐构建适当信任区域的重要性。
我们进行了广泛的实验,通过将我们的方法与各种 DAP 方法集成来验证其有效性和适用性,结果表明,在使用相同数量的偏好数据进行训练时,在各种任务中都取得了显著的性能提升。即使只引入一个额外的数据收集阶段,我们的在线 BPO 也将其离线 DAP 基线从 TL;DR 的 72.0% 提高到 80.2%,从 Anthropic 有用性的 82.2% 提高到 89.1%,在与人类参考文本的获胜率方面。
机器学习模型在医学图像分析中取得了很高的总体准确率。然而,特定患者群体之间存在的性能差异对其实际临床应用、安全性以及公平性提出了挑战。这可能影响已知的患者群体,例如基于性别、年龄或疾病亚型的群体,以及以前未知和未标记的群体。此外,这种观察到的性能差异的根本原因通常难以揭示,阻碍了缓解工作。在本文中,为了解决这些问题,我们利用切片发现方法 (SDM) 来识别可解释的性能欠佳的数据子集,并提出关于观察到的性能差异原因的假设。我们引入了一种新颖的 SDM,并在胸部 X 光片中识别气胸和肺不张的分类案例研究中应用了它。我们的研究证明了 SDM 在假设制定方面的有效性,并解释了在广泛使用的胸部 X 光片数据集和模型中先前观察到的但未解释的男性和女性患者之间性能差异。我们的研究结果表明,两种分类任务都存在捷径学习,分别通过胸腔引流管和心电图导线的出现。这些捷径特征的流行率存在性别差异,似乎导致了观察到的分类性能差距,这代表了捷径学习和模型公平性分析之间以前未被重视的相互作用。
语言具有高度的结构性,语法和语义结构在一定程度上为同一语言的使用者所认同。人类在隐式或显式地意识到这些结构的情况下,可以有效地学习和使用语言,并将其推广到包含未见词的句子中。受人类语言学习的启发,在本论文中,我们考虑了一系列机器学习任务,旨在通过接地学习语言结构。我们寻求来自其他数据源(即接地)的远程监督,包括但不限于其他模态(例如,视觉)、程序执行结果和其他语言。
我们通过三种方案展示了这种任务公式的潜力,并倡导其采用。在第一部分,我们考虑通过视觉接地学习句法分析。我们提出了视觉接地语法归纳的任务,提出了第一个从视觉接地文本和语音中归纳句法结构的模型,并发现视觉接地信号可以帮助提高解析质量,优于仅使用语言的模型。作为一项附带贡献,我们提出了一种新的评估指标,该指标能够在不涉及文本或自动语音识别系统的情况下评估语音解析。在第二部分,我们提出了两种执行感知方法,将句子映射到相应的语义结构(即程序),显着提高了组合泛化和少样本程序合成。在第三部分,我们提出了从其他语言的注释中学习语言结构的方法。具体来说,我们提出了一种在跨语言词对齐方面取得了最新进展的方法。然后,我们利用学习到的词对齐来提高零样本跨语言依存句法分析的性能,提出了一种新颖的基于子结构的投影方法,该方法保留了从源语言学习到的结构知识。
上下文多臂老虎机算法对于解决现实世界中的决策问题至关重要。在实践中,从不同领域收集上下文多臂老虎机的反馈可能涉及不同的成本。例如,测量小鼠(作为源域)和人类(作为目标域)对药物的反应。不幸的是,将上下文多臂老虎机算法从源域适应到具有分布偏移的目标域仍然是一个重大挑战,并且在很大程度上尚未得到探索。在本文中,我们介绍了第一个用于上下文多臂老虎机的通用领域自适应方法。我们的方法通过收集来自源域的反馈来学习目标域的bandit模型。我们的理论分析表明,即使跨域适应,我们的算法也能保持亚线性遗憾界限。实证结果表明,我们的方法在真实世界数据集上优于最先进的上下文多臂老虎机算法。