arXiv 论文列表

GP-GPT：用于基因-表型映射的大型语言模型

作者: Yanjun Lyu, Zihao Wu, Lu Zhang, Jing Zhang, Yiwei Li, Wei Ruan, Zhengliang Liu, Xiaowei Yu, Chao Cao, Tong Chen, Minheng Chen, Yan Zhuang, Xiang Li, Rongjie Liu, Chao Huang, Wentao Li, Tianming Liu, Dajiang Zhu

预训练的大型语言模型（LLMs）因其在自然语言处理中的成功，在生物医学领域引起了越来越多的关注。然而，多源基因组数据的复杂特征和异质性在将这些模型应用于生物信息学和生物医学领域时带来了重大挑战。为了应对这些挑战，我们提出了 GP-GPT，这是第一个专门用于基因型-表型知识表示和基因组关系分析的大型语言模型。我们的模型在两个阶段上对一个综合语料库进行了微调，该语料库包含来自多个大规模验证数据集和科学出版物的基因组学、蛋白质组学和医学遗传学中的超过 3,000,000 个术语。GP-GPT 在准确检索医学遗传学信息和执行常见的基因组学分析任务（如基因组学信息检索和关系确定）方面表现出色。跨域特定任务的比较实验表明，GP-GPT 优于最先进的 LLM，包括 Llama2、Llama3 和 GPT-4。这些结果突出了 GP-GPT 在增强遗传疾病关系研究和促进基因组学和医学遗传学领域准确高效分析方面的潜力。我们的研究证明了生物因子实体在 GP-GPT 中表示的细微变化，这表明将 LLM 应用于促进基因-表型研究的机会。

发布时间: 10/1/2024

查看原文

LACOSTE：利用立体和时间上下文信息进行手术器械分割

作者: Qiyuan Wang, Shang Zhao, Zikang Xu, S Kevin Zhou

手术器械分割对于微创手术和相关应用至关重要。大多数先前的方法将这项任务表述为基于单帧的实例分割，而忽略了手术视频的自然时间和立体属性。因此，这些方法对由于时间运动和视角变化导致的外观变化不太鲁棒。在这项工作中，我们提出了一种新颖的 LACOSTE 模型，它利用立体和时间图像中的位置无关上下文来改进手术器械分割。利用基于查询的分割模型作为核心，我们设计了三个性能增强模块。首先，我们设计了一个视差引导的特征传播模块，以显式地增强深度感知特征。为了即使在只有单目视频的情况下也能很好地泛化，我们应用了一种伪立体方案来生成互补的右图像。其次，我们提出了一种立体时间集分类器，它以通用方式聚合立体时间上下文，以做出综合预测并缓解瞬态故障。最后，我们提出了一种位置无关分类器，以将位置偏差与掩码预测分离并增强特征语义。我们在三个公开的手术视频数据集上广泛验证了我们的方法，包括来自 EndoVis 挑战赛的两个基准数据集和一个真实的根治性前列腺切除术数据集 GraSP。实验结果证明了我们方法的有希望的性能，它始终与以前的最先进方法取得相当或更好的结果。

发布时间: 10/1/2024

查看原文

大型语言模型用于自动医学文档的有效微调

作者: Hui Yi Leong, Yi Fan Gao, Ji Shuai, Yang Zhang, Uktu Pamuksuz

科学研究表明，对于每小时的直接患者护理，医生需要花费近两小时进行行政工作，特别是电子健康记录 (EHR) 和办公桌工作。这种过度的行政负担不仅减少了用于患者护理的时间，还导致医生倦怠和医疗保健交付效率低下。为了解决这些挑战，本研究引入了 MediGen，这是一种经过微调的大型语言模型 (LLM)，旨在自动生成来自医疗对话的医疗报告。通过利用微调开源预训练模型（包括 LLaMA3-8B）的最先进方法，MediGen 在转录和总结临床互动方面取得了高精度。经过微调的 LLaMA3-8B 模型展示了可喜的结果，获得了 58% 的 ROUGE 分数和 72% 的 BERTScore-F1，表明其在生成准确且具有临床相关性的医疗报告方面的有效性。这些发现表明，MediGen 有可能显着减少医生的行政工作量，从而提高医疗保健效率和医生的福祉。

发布时间: 10/1/2024

查看原文

基于探索的具身智能体错误修正学习

作者: Hanlin Wang, Chak Tou Leong, Jian Wang, Wenjie Li

大型语言模型在众多自然语言处理任务中已经取代了传统方法。然而，当在具身环境中作为代理使用时，它们往往会面临其内在知识和环境知识之间不匹配的问题，导致行动不可行。传统的环境对齐方法，例如基于专家轨迹的监督学习和强化学习，分别在覆盖环境知识和实现高效收敛方面遇到了局限性。受人类学习的启发，我们提出了一种基于探索的错误校正学习 (E2CL) 框架，该框架利用探索引起的错误和环境反馈来增强具身代理的环境对齐。E2CL 结合了教师引导和无教师探索来收集环境反馈并纠正错误行为。代理学习提供反馈并自我纠正，从而增强其对目标环境的适应性。在 VirtualHome 环境中进行的大量实验表明，经过 E2CL 训练的代理优于经过基线方法训练的代理，并表现出优异的自我纠正能力。

发布时间: 10/1/2024

查看原文

基于下一词预测的上下文模仿学习

作者: Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg

我们研究了如何增强下一个token预测模型，使其能够在真实机器人上进行上下文模仿学习，其中机器人通过解释输入阶段提供的上下文信息来执行新任务，而无需更新其底层策略参数。我们提出了上下文机器人Transformer (ICRT)，这是一个因果Transformer，它对传感器运动轨迹进行自回归预测，而无需依赖任何语言数据或奖励函数。这种公式使新任务在测试时能够灵活且无需训练地执行，这是通过提示模型使用新的任务的传感器运动轨迹来实现的，该轨迹由图像观察、动作和状态元组组成，这些元组是通过人工遥操作收集的。使用Franka Emika机器人的实验表明，即使在与提示和训练数据都不同的环境配置中，ICRT也能适应提示指定的新的任务。在多任务环境设置中，ICRT在泛化到未见任务方面明显优于当前最先进的机器人领域下一个token预测模型。代码、检查点和数据可在https://icrt.dev/上获取。

发布时间: 10/1/2024

查看原文

Reactzyme：一种酶反应预测基准

作者: Chenqing Hua, Bozitao Zhong, Sitao Luan, Liang Hong, Guy Wolf, Doina Precup, Shuangjia Zheng

酶通过其催化的特定反应，对生命的所有方面都至关重要，使各种生物过程和适应成为可能。预测酶的功能对于理解生物通路、指导药物开发、提高生物产品产量以及促进进化研究至关重要。为了解决固有的复杂性，我们提出了一种基于酶催化反应的新方法来注释酶。这种方法提供了对特定反应的详细见解，并且可以适应新发现的反应，与传统的蛋白质家族或专家推导的反应类别分类方法不同。我们采用机器学习算法来分析酶反应数据集，对酶的功能提供更精细的视图。我们的评估利用了迄今为止最大的酶反应数据集，该数据集来自 SwissProt 和 Rhea 数据库，其中包含截至 2024 年 1 月 8 日的条目。我们将酶反应预测定义为一个检索问题，旨在根据酶对特定反应的催化能力对酶进行排序。利用我们的模型，我们可以为新的反应招募蛋白质，并预测新蛋白质中的反应，从而促进酶的发现和功能注释（https://github.com/WillHua127/ReactZyme）。

发布时间: 10/1/2024

查看原文

基于多任务鱼眼跨视角Transformer的增强停车感知

作者: Antonyo Musabini, Ivan Novikov, Sana Soula, Christel Leonet, Lihao Wang, Rachid Benmokhtar, Fabian Burger, Thomas Boulay, Xavier Perrotton

现有的停车区域感知算法主要集中在检测有限范围内空闲车位，依赖于易出错的单应投影进行标注和推理。然而，高级驾驶辅助系统（ADAS）的最新进展需要通过全面智能的人机界面（HMI）与最终用户交互。这些界面应该呈现停车区域的完整感知，从区分空闲车位的入口线到其他停放车辆的方向。本文介绍了多任务鱼眼交叉视图变换器（MT F-CVT），它利用来自四摄像头鱼眼环视摄像头系统（SVCS）的多头注意力特征，以创建详细的鸟瞰图（BEV）网格特征图。特征由分割解码器和基于 Polygon-Yolo 的目标检测解码器处理，用于停车位和车辆。MT F-CVT 在使用 LiDAR 标注的数据上进行训练，将物体定位在 25m x 25m 的真实开放道路场景中，平均误差仅为 20 厘米。我们更大的模型实现了 0.89 的 F-1 分数。此外，较小的模型在 Nvidia Jetson Orin 嵌入式板上以 16 fps 的速度运行，检测结果与较大的模型相似。MT F-CVT 展示了跨不同车辆和摄像头装置配置的强大泛化能力。来自未见车辆和摄像头装置的演示视频可在以下网址获取：https://streamable.com/jjw54x。

发布时间: 10/1/2024

查看原文

MUSES：基于多模态智能体协作的3D可控图像生成

作者: Yanbo Ding, Shaobin Zhuang, Kunchang Li, Zhengrong Yue, Yu Qiao, Yali Wang

尽管文本到图像生成技术取得了进展，但大多数现有方法难以生成具有多个对象和复杂空间关系的 3D 世界图像。为了克服这一限制，我们引入了一个通用的 AI 系统，即 MUSES，用于根据用户查询生成可 3D 控制的图像。具体来说，MUSES 通过开发一个具有三个关键组成部分的渐进式工作流程来解决这一具有挑战性的任务，包括 (1) 布局管理器，用于 2D 到 3D 布局提升，(2) 模型工程师，用于 3D 对象获取和校准，(3) 图像艺术家，用于 3D 到 2D 图像渲染。通过模仿人类专业人士的协作，这种多模态代理管道通过可解释地整合自上而下的规划和自下而上的生成，促进了具有 3D 可控对象的图像的有效和自动创建。此外，我们发现现有的基准测试缺乏对多个对象的复杂 3D 空间关系的详细描述。为了填补这一空白，我们进一步构建了一个新的 T2I-3DisBench（3D 图像场景）基准测试，该基准测试用 50 个详细提示描述了各种 3D 图像场景。大量实验表明，MUSES 在 T2I-CompBench 和 T2I-3DisBench 上都取得了最先进的性能，优于 DALL-E 3 和 Stable Diffusion 3 等最新的强大竞争对手。这些结果表明，MUSES 在连接自然语言、2D 图像生成和 3D 世界方面迈出了重要的一步。我们的代码和模型将很快发布。

发布时间: 10/1/2024

查看原文

非卷积图神经网络

作者: Yuanqing Wang, Kyunghyun Cho

重新思考基于卷积的图神经网络（GNN）——它们通常存在表达能力有限、过度平滑、过度压缩等问题，并且需要专门的稀疏核才能进行高效计算。本文设计了一个完全没有卷积算子的简单图学习模块，称为具有统一记忆的随机游走（RUM）神经网络，其中一个 RNN 沿着终止于每个节点的随机游走合并了拓扑和语义图特征。通过关联 RNN 行为和图拓扑的丰富文献，我们从理论上证明并通过实验验证了 RUM 可以减轻上述症状，并且比 Weisfeiler-Lehman (WL) 同构测试具有更强的表达能力。在各种节点级和图级分类和回归任务上，RUM 不仅获得了具有竞争力的性能，而且还比最简单的卷积 GNN 更加鲁棒、内存效率高、可扩展性和速度更快。

发布时间: 10/1/2024

查看原文

CollectiveSFT：基于医疗领域集体指令的大规模语言模型中文医疗基准扩展

作者: Jingwei Zhu, Minghuan Tan, Min Yang, Ruixue Li, Hamid Alinejad-Rokny

大型语言模型（LLM）的快速发展促使人们创建了众多基准来评估其能力。本研究重点关注中文综合医学基准（CMB），展示了监督微调（SFT）中数据集的多样性和分布如何增强 LLM 的性能。值得注意的是，我们成功地训练了一个更小的基础模型，其得分与更大的模型相当，这表明多样化且分布良好的数据集可以优化性能，无论模型大小如何。本研究表明，即使是更小的模型也可以通过精心策划和多样化的数据集达到高性能水平。通过整合各种指令内容，我们的方法解决了数据质量不一致等潜在问题。我们的结果表明，更广泛的训练数据范围可以提高模型在不同医疗场景下的泛化能力和有效性，突出了数据集质量和多样性在微调过程中的重要性。我们在 https://github.com/CAS-SIAT-XinHai/CollectiveSFT 上开源了该模型以供未来研究。

发布时间: 10/1/2024

查看原文