LLM2D
面向部署的多模态人工智能超越视觉和语言
Towards deployment-centric multimodal AI beyond vision and language
作者: Xianyuan Liu, Jiayang Zhang, Shuo Zhou, Thijs L. van der Plas, Avish Vijayaraghavan, Anastasiia Grishina, Mengdie Zhuang, Daniel Schofield, Christopher Tomlinson, Yuhan Wang, Ruizhe Li, Louisa van Zeeland, Sina Tabakhi, Cyndie Demeocq, Xiang Li, Arunav Das, Orlando Timmerman, Thomas Baldwin-McDonald, Jinge Wu, Peizhen Bai, Zahraa Al Sahili, Omnia Alwazzan, Thao N. Do, Mohammod N. I. Suvon, Angeline Wang, Lucia Cipolina-Kun, Luigi A. Moretti, Lucas Farndale, Nitisha Jain, Natalia Efremova, Yan Ge, Marta Varela, Hak-Keung Lam, Oya Celiktutan, Ben R. Evans, Alejandro Coca-Castro, Honghan Wu, Zahraa S. Abdallah, Chen Chen, Valentin Danchev, Nataliya Tkachenko, Lei Lu, Tingting Zhu, Gregory G. Slabaugh, Roger K. Moore, William K. Cheung, Peter H. Charlton, Haiping Lu
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2504.03603v1

摘要

arXiv:2504.03603v1 公告类型: 新 摘要: 多模态人工智能(AI)通过机器学习整合各种类型的数据,从而在医学、科学和工程等多个领域提高理解和预测能力以及决策。然而,大多数多模态AI的进步主要集中在视觉和语言数据模型上,而其部署能力仍然是一个关键挑战。我们提倡一种以部署为中心的工作流程,早期结合部署约束条件,以降低不可部署解决方案的可能性,同时补充数据为中心和模型为中心的方法。我们还强调在多个层次的多模态以及跨学科合作方面的更深层次整合,以大幅度拓宽研究范围,超越视觉和语言领域。为了促进这种做法,我们识别出跨学科共享的多模态AI特定挑战,并分析了三个实际应用案例:疫情应对、自动驾驶汽车设计和气候变化适应,涉及健康、社会科学、工程、科学、可持续性和金融领域的专业知识。通过促进跨学科对话和开放研究实践,我们的社区可以加快以部署为中心的发展,以实现广泛的社会影响。