LLM2D

arXiv 论文列表

本综述介绍了生成性人工智能(AI)和基础模型,包括大语言模型(LLM)在健康技术评估(HTA)方面的变革潜力。我们探讨了它们在四个关键领域的应用:证据综合、证据生成、临床试验和经济建模:(1) 证据综合:生成性AI有助于通过提出检索词、筛选摘要和准确提取数据来自动化文献综述和荟萃分析;(2) 证据生成:这些模型可以潜在地促进自动化处理和分析日益增多的大量真实世界数据(RWD),包括非结构化临床笔记和影像,从而提升真实世界证据(RWE)生成的速度和质量;(3) 临床试验:生成性AI可用于优化试验设计、改进患者匹配并更高效地管理试验数据;(4) 经济建模:生成性AI还可辅助健康经济模型的开发,从概念化到验证,从而简化整体HTA过程。尽管这些技术前景广阔,但它们仍处于初期阶段,需要持续仔细评估其在HTA中的应用。为了确保其负责任的使用和实施,研究人员和开发者应熟悉这些工具的当前局限性,包括科学有效性问题、偏倚风险,并考虑公平性和伦理影响。我们还调查了当前的政策环境,并为HTA机构提供在工作流程中负责任地整合生成性AI的建议,强调人类监督和这些工具快速发展的重要性。
发布时间: 9/24/2024
查看原文
分析包含个人信息的时间序列数据,特别是在医疗领域,提出了严重的隐私问题。患者的敏感健康数据通常用于训练机器学习模型,以进行诊断和持续护理。评估此类模型的隐私风险对于决定是否在生产中使用模型或与第三方共享至关重要。成员推断攻击(MIA)是这种评估的关键方法,然而,时间序列预测模型在这一背景下尚未得到充分研究。我们探讨了现有的时间序列模型上的MIA技术,并引入了新特性,重点关注数据的季节性和趋势成分。季节性通过多变量傅里叶变换估计,趋势则使用低阶多项式近似。我们将这些技术应用于来自健康领域的各种类型的时间序列模型。结果表明,这些新特性增强了MIA在识别成员身份方面的有效性,提高了对医疗数据应用中隐私风险的理解。
发布时间: 9/24/2024
查看原文
利用远程操作系统收集演示数据有助于更高效地学习机器人操作。然而,通过远程操作系统远程操作配备灵巧手或夹持器的机器人臂存在固有挑战,这些挑战源于任务的高维性、运动的复杂性以及生理结构的差异。在本研究中,我们引入了一种新颖的系统,用于人类操作员和机器人之间的联合学习,该系统使人类操作员能够与学习到的辅助代理共享机器人末端执行器的控制,简化数据收集过程,并促进人类演示数据的收集与机器人操作训练的同时进行。随着数据的积累,辅助代理逐渐学习,因而所需的人类努力和注意力减少,提高了数据收集过程的效率。该系统还允许人类操作员调整控制比例,以在手动和自动控制之间实现权衡。我们在模拟环境和实际物理环境中进行了实验。通过用户研究和定量评估,结果表明,所提出的系统可以提高数据收集效率,减少人类适应的需求,同时确保收集到的数据质量足以满足后续任务的要求。详细信息请参阅我们的网站:https://norweig1an.github.io/HAJL.github.io/.
发布时间: 9/24/2024
查看原文
条件有效性和长度效率是保形预测(CP)的两个关键方面。实现条件有效性可以确保对数据子群的准确不确定性量化,而适当的长度效率可以确保预测集保持信息性且非平凡。尽管在单独处理这些问题上已经做出了重大努力,但CP文献中一直缺少一个能够调和这两个目标的原则性框架。在本文中,我们开发了长度优化的保形预测(CPL)——一个新颖的框架,在确保各种协变量转移(包括边际和组条件覆盖的关键情况)下的条件有效性的同时,构建具有(近乎)最优长度的预测集。在无限样本情况下,我们提供了强对偶性结果,表明CPL实现了条件有效性和长度最优性。在有限样本情况下,我们表明CPL构建的预测集是条件有效的。我们广泛的实证评估展示了CPL在分类、回归和基于大语言模型的多项选择问题回答中的预测集大小性能优于现有的最新方法,涵盖了多种现实世界和合成数据集。
发布时间: 9/24/2024
查看原文
文本到图像扩散模型(T2I DMs)因其能够根据文本描述生成高质量图像而受到广泛关注。然而,这些模型经常生成与输入提示不完全一致的图像,导致语义不一致。其中最显著的问题是灾难性忽略,即T2I DMs生成的图像缺少提示中提到的关键对象。我们首先对这一问题进行了实证研究,探索了灾难性忽略的普遍性、通过特征增强的潜在缓解策略以及获得的洞见。在实证研究的指导下,我们提出了一种名为Patcher的自动修复方法,解决T2I DMs中的灾难性忽略问题。具体而言,Patcher首先确定提示中是否存在被忽略的对象,然后对这些被忽略的对象应用注意力引导的特征增强,生成一个修复后的提示。对三个版本的稳定扩散模型的实验结果表明,Patcher有效修复了灾难性忽略问题,与基线相比,在图像生成中的正确率提高了10.1%-16.3%。
发布时间: 9/24/2024
查看原文
虽然文本模型的评估情况有所改善,但目前似乎多模态(文本和图像)模型的发展速度仍然快于评估方法的发展。在本文中,我们将最近从文本模型中开发的评估范式引入到多模态模型中,即通过目标导向的游戏(自我)进行评估,补充基于参考和基于偏好的评估。具体来说,我们定义了一些游戏,这些游戏挑战模型从视觉信息中表示情境的能力,并通过对话对这些表示进行对齐。我们发现,最大的封闭模型在我们定义的游戏中表现相当好,而即使是最好的开放权重模型也难以应对。进一步分析发现,最大的模型的卓越深度描述能力驱动了部分表现。两种模型都有进一步发展的空间,确保基准的持续相关性。
发布时间: 9/24/2024
查看原文
大规模语言模型(LLMs)的部署往往受到键值(KV)缓存所需大量内存的限制,特别是在上下文长度增加时。现有减少KV缓存大小的方法包括对模型进行微调以学习压缩策略或利用注意力得分来减少序列长度。我们分析了基于仅解码器的Transformer模型中的注意力分布,观察到注意力分配模式在大多数层中保持一致。令人惊讶的是,我们发现缓存的KV对上的$L_2$和注意力得分之间存在明显的相关性,其中一个键嵌入的低$L_2$通常在解码期间会导致高注意力得分。这一发现表明,一个KV对的影响可能在被查询之前就由键嵌入本身决定。基于这一观察,我们根据键嵌入的$L_2$压缩KV缓存。我们的实验结果表明,这一简单策略在语言建模和大海捞针任务中可以将KV缓存大小减少50%,在密码检索任务中减少90%而不失准确性。此外,由于不依赖注意力得分,这种方法仍然兼容FlashAttention,从而具有更广泛的适用性。
发布时间: 9/24/2024
查看原文
大型语言模型(LLMs)在各种自然语言处理任务中表现出了令人惊讶的性能。最近,结合了领域特定知识的医学大型语言模型在医疗咨询和诊断方面展现了卓越的能力。这些模型可以流畅地模拟医患对话,并提供专业的医疗建议。大多数医学大型语言模型是通过对开源通用大型语言模型的持续训练开发的,这比从头开始训练大型语言模型所需的计算资源显著减少。此外,这种方法比基于API的解决方案提供了更好的患者隐私保护。鉴于上述优势,本综述系统地总结了如何从更细致的角度基于开源通用大型语言模型训练医学大型语言模型。内容包括:(a) 如何获取训练语料并构建定制的医学训练集,(b) 如何选择合适的训练范式,(c) 如何选择合适的评估基准,以及 (d) 讨论现有的挑战和有前景的研究方向。此综述可为开发各种医学应用的大型语言模型提供指导,例如医学教育、诊断规划和临床助理。相关资源和补充信息可以在GitHub仓库中找到。
发布时间: 9/24/2024
查看原文
多模态融合突破了不同模态之间的边界,已经取得了显著的成绩。然而,在许多专业领域中,获取足够的对齐数据用于训练仍然是一个困难,这严重限制了以往有效模型的使用。因此,尝试采用半监督学习方法,通过从低对齐数据中学习来促进多模态对齐,但传统技术如伪标签在标签缺乏的情况下可能会遇到问题。为了解决这些挑战,我们将半监督多模态对齐重新框定为流形匹配问题,并提出了一种基于CLIP的新方法,称为Set-CLIP。具体来说,通过设计一种新颖的语义密度分布损失,我们以细粒度约束潜在表示分布,并从未配对的多模态数据中提取隐式语义对齐,从而减少了对大量严格匹配对的依赖。此外,我们应用粗粒度模态适配和单模态自监督指导,缩小模态空间之间的差距,并提高表示分布的稳定性。在包括蛋白质分析、遥感和通用视觉语言领域的各种任务中进行的大量实验验证了我们提出的Set-CLIP方法的有效性。特别是在没有配对数据用于监督训练的情况下,Set-CLIP依然表现出色,相比CLIP带来了144.83%的提升。
发布时间: 9/24/2024
查看原文
扩散模型在机器人模仿学习中得到了快速应用,使得复杂灵巧任务的自动执行成为可能。然而,动作生成通常较慢,需要多步迭代去噪,限制了模型在需要快速反应策略的任务中的使用。为了绕过这一问题,最近的研究探索了如何通过扩散过程蒸馏来加速策略生成。然而,蒸馏计算成本高,并且可能损害生成动作的准确性和多样性。我们提出了SDP(流式扩散策略),这是一种加速策略生成的替代方法,利用了生成部分去噪的动作轨迹比生成完全输出的动作轨迹快得多的见解。在每次观察时,我们的方法输出一个具有可变噪声污染水平的部分去噪动作轨迹,立即执行的动作是无噪声的,后续动作则具有逐渐增加的噪声和不确定性。对于新的观察,可以通过对先前预测的噪声动作轨迹(按一个时间步滚动)应用几步去噪,快速生成部分去噪的动作轨迹。我们展示了这一方法的有效性,在模拟和现实环境中显著加快策略生成速度,同时保持性能。
发布时间: 9/24/2024
查看原文