摘要
金融机构收集了大量关于客户的数据,这些数据通常具有时间(顺序)结构,并从各种来源(模式)收集。由于隐私问题,没有大规模的开源事件序列多模态数据集,这极大地限制了该领域的研究。本文介绍了工业规模的公开多模态银行数据集 MBD,该数据集包含超过 150 万个企业客户,具有多种模式:9.5 亿次银行交易、10 亿次地理位置事件、500 万次与技术支持对话的嵌入以及每月汇总的四种银行产品的购买情况。所有条目均从真实的专有银行数据中匿名化。使用该数据集,我们引入了一个新的基准,包含两个业务任务:活动营销(预测下个月的购买情况)和客户匹配。我们提供的数值结果表明,在每个任务上,我们的多模态基线优于单模态技术。因此,所提出的数据集可以开辟新的视角,并促进未来针对事件序列的实际重要的大规模多模态算法的开发。