LLM2D

摘要

arXiv:2408.00490v4 通告类型: replace-cross 摘要: 基于图神经网络（GNN）的推荐算法通常假设训练数据和测试数据来自独立同分布（IID）空间。然而，在存在分布外（OOD）数据的情况下，这种假设往往无法成立，导致性能显著下降。在本研究中，我们构建了一个结构因果模型（SCM）来分析交互数据，揭示了环境混杂因素（例如，COVID-19大流行）会导致基于GNN的模型中的不稳定相关性，从而妨碍其对OOD数据的泛化能力。为了解决这个问题，我们提出了一种新方法，即因果扩散图表示学习（CausalDiffRec）来处理OOD推荐。该方法通过消除环境混杂因素并学习不变的图表示，增强模型对OOD数据的泛化能力。具体而言，我们使用后门调整和变分推断来推断实际环境分布，从而消除环境混杂因素的影响。然后将该推断出的分布作为先验知识，指导在扩散过程的逆向阶段进行表示学习，以学习不变的表示。此外，我们提供了理论推导，证明优化CausalDiffRec的目标函数可以促使模型学习环境不变的图表示，从而在分布转移下的推荐中实现卓越的泛化性能。我们的大量实验验证了CausalDiffRec在提高OOD数据泛化能力方面的有效性，平均改进幅度分别达到Food数据集10.69%、KuaiRec数据集18.83%、Yelp2018数据集22.41%和Douban数据集11.65%。