LLM2D
NLPCC 2025 共享任务 4 概览:多模态、多语言和多跳医疗 instructional 视频问答挑战
Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge
作者: Bin Li, Shenxi Liu, Yixuan Weng, Yue Du, Yuhang Tian, Shoujun Zhou
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06814v1

摘要

arXiv:2505.06814v1 宣告类型: cross 摘要: 在成功举办第1届(NLPCC 2023 佛山)CMIVQA和第2届(NLPCC 2024 杭州)MMIVQA挑战之后,今年引入了一个新的任务,以进一步推动多模态、多语言和多跳医疗教学问答(M4IVQA)系统的研究,重点关注医疗教学视频。M4IVQA挑战侧重于评估能够整合医疗教学视频信息、理解多种语言并回答需要在多种模态上进行推理的多跳问题的模型。该任务包括三个轨道:多模态、多语言和多跳单视频时间答案定位(M4TAGSV)、多模态、多语言和多跳视频数据集检索(M4VCR)和多模态、多语言和多跳视频数据集时间答案定位(M4TAGVC)。M4IVQA参赛者被期望开发能够在处理视频和文本数据、理解多语言查询并提供与多跳医疗问题相关答案方面表现出色的算法。我们相信新引入的M4IVQA挑战将推动医疗保健场景中的多模态推理系统的创新,最终为多语言社区中的更智能的应急响应系统和更有效的医疗教育平台作出贡献。我们的官方网站是<https://cmivqa.github.io/>。