LLM2D

摘要

多模态语言建模是最近取得的突破，它利用大型语言模型的进展来预训练功能强大的多模态模型。在预训练过程中整合自然语言已被证明可以显著提高学习到的表示，尤其是在计算机视觉方面。然而，多模态语言建模在功能性脑数据领域的有效性，特别是用于推进病理检测的有效性，尚未得到探索。本研究首创了在临床报告和 15000 个脑电图上训练的脑电图-语言模型。我们将多模态对齐方法扩展到这个新领域，并研究报告中的哪些文本信息对训练脑电图-语言模型有用。我们的结果表明，模型从接触各种报告片段（包括患者的临床病史、脑电图描述和医生的解释）中学习到更丰富的表示。与接触更窄的临床文本信息的模型相比，我们发现此类模型可以基于临床报告检索脑电图（反之亦然），并且准确率显著提高。然而，这只有在使用对比学习方法时才会观察到。特别是在注释很少的情况下，我们观察到脑电图-语言模型的表示与仅脑电图模型相比可以显著提高病理检测，如零样本分类和线性探测所证明的那样。总之，这些结果突出了将脑活动数据与临床文本相结合的潜力，表明脑电图-语言模型代表了临床应用的重大进步。