摘要
如今,解释人工智能 (AI) 的决策在 AI 领域是一个重大挑战,尤其是在医学和法律等敏感场景中。然而,解释决策背后的理由也是人类推理中的一个主要问题,因为证明做出某个决策的“原因”非常重要。例如,住院医师不仅需要提供(可能是正确的)诊断,还需要解释他们如何得出某个结论。因此,开发新工具来帮助住院医师训练他们的解释技能是教育领域人工智能的核心目标。在本文中,我们遵循这一方向,并根据我们的了解,提出了第一个用于医学问答的多语言数据集,其中临床案例的正确和错误诊断都附带医生撰写的自然语言解释。这些解释已通过手动标注了论证成分(即前提、主张)和论证关系(即攻击、支持),从而形成了多语言 CasiMedicos-Arg 数据集,该数据集包含四种语言(英语、西班牙语、法语、意大利语)的 558 个临床案例及其解释,其中我们标注了 5021 个主张、2313 个前提、2431 个支持关系和 1106 个攻击关系。最后,我们展示了竞争性基线在针对论证挖掘任务的这个具有挑战性的数据集上的表现。