arXiv:2504.18096v1 宣传类型: 新
摘要:药物推荐在医疗保健中至关重要,它可以根据患者的电子健康记录(EHR)提供有效的治疗方法。之前的研究所表明,整合更多的药物相关知识可以提高药物表示的准确性。然而,并非所有药物同时包含多种类型的知识数据。例如,有些药物仅提供文本描述而没有结构化数据。这种数据可用性的不平衡限制了现有模型的性能,我们将其在药物推荐中的这一挑战称为“桶效应”。我们的数据分析揭示了药物推荐中“桶效应”的严重性。为了解决这一问题,我们引入了一种跨模态药物编码器,它可以无缝地对齐不同模态的数据,并提出了一种集成多种类型知识的药物推荐框架,称为MKMed。具体来说,我们首先使用对比学习在五种知识模态上预训练了一个跨模态编码器,将它们对齐到一个统一的空间。然后,我们将多种知识的药物表示与患者记录结合起来进行推荐。在MIMIC-III和MIMIC-IV数据集上的 extensive 实验证明,MKMed 在缓解数据的“桶效应”方面表现出色,并且在推荐准确性和安全性方面显著优于现有最先进的基线模型。
arXiv:2504.18039v1 公告类型: 新增
摘要:大型语言模型(LLM)代理已经在如狼人杀这样的社会推理游戏(SDGs)中展示了令人印象深刻的能力,其中策略推理和社会欺骗至关重要。然而,当前的方法仅限于处理文本信息,忽略了人类自然使用的至关重要的多模态线索,如面部表情和语调。此外,现有的SDG代理主要关注推断其他玩家的身份,而没有建模他人如何看待自己或同行玩家。为了应对这些局限性,我们以One Night Ultimate Werewolf (ONUW)为测试平台,并提出了MultiMind,这是第一个集成多模态信息到SDG代理中的框架。MultiMind在处理面部表情和声调的同时,还利用一个心理理论模型(ToM模型)来表示每个玩家对其他玩家的怀疑程度。通过将这种ToM模型与蒙特卡洛树搜索(MCTS)结合,我们的代理识别出可以最大限度地减少对自己怀疑的沟通策略。通过在代理对抗代理的模拟以及与人类玩家的研究中进行全面评估,我们证明了MultiMind在游戏中的优越性能。我们的工作展示了一种向跨多模态领域具有类似人类社会推理能力的LLM代理的重大进展。
arXiv:2504.18007v1 宣布类型: 新
摘要: 随着医疗保健系统的快速数字化,生成和共享的私人健康数据量显著增加。保护患者信息对于维护消费者信任和确保遵守法律数据保护条例至关重要。机器学习在医疗保健中起着关键作用,支持个性化治疗、早期疾病检测、预测分析、图像解释、药物发现、高效运作以及患者监测。它提升了决策质量,加速了研究进程,减少了错误,改善了患者结果。在本文中,我们运用机器学习方法,包括差分隐私和联邦学习,开发出能够在不牺牲个体隐私的情况下提取洞察的隐私保护模型。差分隐私通过向数据中添加噪音来保证统计隐私,而联邦学习则允许在分散的数据集上进行协作模型训练。我们探索将这些技术应用于心脏病数据集,展示了它们在保护隐私的同时提供有价值的洞察和全面分析。我们的结果表明,使用结合了差分隐私的联邦学习模型,测试准确率达到85%,确保在整个过程中患者数据保持安全和隐私。
arXiv:2504.17967v1 宣告类型: 新
摘要: 药物发现仍然是一个艰巨的挑战:超过90%的候选分子在临床评估中失败,而每项获批疗法的开发成本往往超过十亿美元。来自基因组学、转录组学、化学库和临床记录等异质数据流阻碍了统一的机制性洞察,并减缓了进程。与此同时,大型语言模型在推理和工具集成方面表现出色,但缺乏用于受监管、基于假设的工作流程所需的模块化专业化和迭代记忆能力。我们引入了PharmaSwarm,这是一种统一的多智能体框架,该框架协调专门的LLM“智能体”来提出、验证和细化针对新药物靶标和先导化合物的新假设。每个智能体访问特定的功能——自动基因组和表达分析;一个精心策划的生物医学知识图;途径富集和网络模拟;可解释的结合亲和力预测——而中央评估LLM持续根据生物可行性、新颖性、体外效果和安全性对提案进行排名。一个共享的记忆层捕获了经验证的洞察,并随着时间的推移微调底层子模型,从而生成一个自我改进的系统。PharmaSwarm可以在低代码平台上部署或基于Kubernetes的微服务。PharmaSwarm支持文献驱动的发现、组学指导的目标识别和市场驱动的再定位。我们还描述了一个严格的四阶段验证流水线,包括回顾性基准测试、独立的计算试验、实验测试和专家用户研究,以确保透明度、可重复性和实际影响。作为人工智能副驾,PharmaSwarm可以加速转化研究,并比传统流水线更高效地交付高置信度假设。
arXiv:2504.17929v1 宣布类型: 新
摘要: 可解释的人工智能(XAI)通过将可解释性视为优化问题来提高人工智能系统的透明度。然而,这种方法通常需要进行大量计算密集型操作的迭代,限制了其在实时场景中的应用。虽然最近的研究集中在使用FPGA和TPU对XAI进行硬件加速,但这些方法并不能完全解决实时环境下的能效问题。为了解决这一限制,我们提出了XAIedge,这是一种新颖的框架,它利用了近似计算技术到XAI算法中,包括整合梯度、模型蒸馏和Shapley分析。XAIedge将这些算法转化为近似矩阵计算,并利用卷积、傅里叶变换和近似计算范式的协同作用。这种 approaches 使得以TPU为基础的边缘设备能够进行高效的硬件加速,促进了更快的实时结果解释。我们的全面评估表明,XAIedge 在保持相当准确性的前提下,实现了现有准确的XAI硬件加速技术两倍的能效改进。这些结果突显了XAIedge 在能量受限的实时应用中显著促进可解释AI部署的潜力。
arXiv:2504.13340v3 宣告类型: replace-cross
摘要: 卵圆韧带是存在于膝关节内的软骨组织,有助于关节润滑和重量分散。卵圆韧带损伤可能导致膝关节骨关节炎(OA)的发生和发展,这是一种导致残疾的主要疾病,目前治疗方法有限。准确的自动卵圆韧带分割可以实现更早地检测和治疗卵圆韧带异常,并更多地阐明卵圆韧带在OA发病机制中的作用。该领域的研究主要使用了卷积网络的各种变体,但尚未尝试利用最近的大规模视觉变压器分割模型。Segment Anything Model (SAM) 是所谓的基础分割模型,由于用于训练模型的数据量大,该模型在各种不同的任务中都被发现很有用。在这项研究中,SAM 被调整为从 3D 膝关节磁共振成像中自动分割卵圆韧带。还将 3D U-Net 作为基线进行训练。研究发现,仅微调解码器时,SAM 无法与 3D U-Net 竞争,在保留的测试集上得到的Dice分数为$0.81\pm0.03$,而 3D U-Net 的 Dice 分数为$0.87\pm0.03$。当端到端微调 SAM 时,得到了$0.87\pm0.03$的 Dice 分数。端到端训练的 SAM 配置和 3D U-Net 的性能与2019年IWOAI膝关节MRI分割挑战赛的获胜Dice分数($0.88\pm0.03$)相当。Hausdorff 距离方面的性能表明,两种 SAM 配置在匹配卵圆韧带形态方面均不及 3D U-Net。结果表明,尽管具有广泛适用性,SAM 无法在卵圆韧带分割中超越基础的 3D U-Net,并且可能不适合其他涉及细小解剖结构且对比度低、边界不清晰的3D 医学图像分割任务。
arXiv:2501.10100v3 通知类型: 替换交叉
摘要:学习稳健且通用的世界模型是实现高效可扩展的机器人控制的关键。在本文中,我们提出了一种新颖的框架,用于学习能够准确捕捉复杂、部分可观测和随机动力学的世界模型。所提出的方 法采用了一种双自回归机制和自监督训练,以在无需依赖特定领域归纳偏见的情况下实现可靠的长时预测,从而确保在各种机器人任务中的适应性。我们还提出了一种策略优化框架,该框架利用世界模型在想象的环境中进行高效训练,并在现实世界系统中无缝部署。本文通过解决长时预测、误差积累和仿真到现实转换等挑战,推动了基于模型的强化学习的发展。通过提供一种可扩展且鲁棒的框架,引入的方法为实际应用场景中的适应性和高效机器人系统铺平了道路。
arXiv:2406.15231v4 宣告类型:替换-交叉
摘要:近年来,使用大型语言模型(LLMs)生成音乐内容,尤其是歌词,越来越受欢迎。这些进展为艺术家提供了有价值的工具,增强了他们的创作过程,但也引发了版权侵犯、消费者满意度和内容垃圾邮件的担忧。此前的研究已经在各个领域探索了内容检测,但没有一项研究关注音乐中的文本模式,即歌词。为弥补这一空白,我们收集了多种语言、音乐流派和艺术家的真歌词和合成歌词的数据集。生成管道通过人类和自动化方法进行了验证。我们对现有现有的合成文本检测方法在歌词上的表现进行了彻底的评估,这也是一种此前未被探索的数据类型。我们还研究了如何通过无监督领域适应将表现最佳的特征应用到歌词中。在遵循音乐和产业限制的同时,我们考察了这些方法在不同语言中的适用性、随着数据可用性的扩展性、对多语言内容的处理能力以及在少量示例设置下对新颖流派的表现。我们的研究结果表明了有希望的结果,这些结果可以为AI生成音乐的政策制定提供信息,并增强用户的透明度。
arXiv:2504.14128v4 宣布类型: 替换
摘要: 原理是使大规模语言模型(LLMs)能够与外部世界进行互动的一项至关重要的技能。随着任务变得越来越复杂,它们对顺序决策所需的推理能力也提出了越来越复杂和多样的要求,这需要在上下文历史中进行结构化的推理来确定下一步的最佳行动。我们引入了TALES,这是一个既包括合成数据,也包括人类编写的文本冒险游戏的多样化集合,旨在挑战和评估多样的推理能力。我们展示了在一系列大规模语言模型上的结果,并对表现最优秀的模型进行了定性的分析。尽管在合成游戏中表现出色,但即使是表现最好的LLM驱动的代理,在设计用于人类娱乐的游戏中的得分也未达到15%。实验的代码和可视化可以在 https://microsoft.github.io/tale-suite 找到。
arXiv:2504.16727v2 交叉类型公告
摘要:大规模视觉语言模型(LVLMs)在各种视觉语言任务中表现出色。然而,由于视角和环境的变化,自然场景中对象不可避免地展现出的位置、尺度、方向和上下文的视觉变化性对其鲁棒性研究仍然相对不足。为了弥合这一差距,我们引入了V$^2$R-Bench,一个全面的基准框架,用于评估LVLMs的视觉变化鲁棒性,该框架涵盖了自动化的评估数据集生成和科学的度量标准,以进行全面的鲁棒性评估。通过在21个LVLMs上的广泛评估,我们揭示了一种令人惊讶的对视觉变化的脆弱性,即使在复杂视觉语言任务中表现出色的模型,在简单的任务如物体识别上也会显著表现不佳。有趣的是,这些模型表现出一种独特的视觉位置偏见,这与有效的感受野理论相矛盾,并显示出类似人类的视觉锐度阈值。为了识别这些脆弱性的根源,我们提出了一个系统化的组件级分析框架,其中包括一种新颖的对齐视觉特征的可视化方法。结果显示,这些脆弱性源自于流水线架构中的错误累积和不充分的跨模态对齐。通过合成数据的补充实验进一步证明,这些限制本质上是架构缺陷,表明未来LVLM设计中需要创新的架构设计。