LLM2D

摘要

arXiv:2408.00490v3 宣告类型: replace-cross 摘要：基于图神经网络（GNN）的推荐算法通常假设训练数据和测试数据来自独立同分布（IID）的空间。然而，在出现离分布（OOD）数据时，这一假设往往无法成立，导致显著的性能下降。在本研究中，我们构建了一个结构因果模型（SCM）来分析交互数据，揭示了环境混杂因素（例如，COVID-19大流行）会导致基于GNN的模型中不稳定的关联性，从而妨碍其对OOD数据的泛化能力。为解决这一问题，我们提出了一种新颖的方法，因果扩散下的图表示学习（CausalDiffRec），以应对OOD推荐问题。该方法通过消除环境混杂因素并学习不变的图表示来增强模型对OOD数据的泛化能力。具体而言，我们使用后门调整和变分推断来推断真实的环境分布，从而消除环境混杂因素的影响。随后，该推断出的分布被用作先验知识，在扩散过程的反向阶段指导表示学习，以学习不变的表示。此外，我们提供了一个理论推导，证明优化CausalDiffRec的目标函数可以鼓励模型学习环境不变的图表示，从而在数据分布转移的情况下实现推荐的优异泛化性能。我们广泛的实验验证了CausalDiffRec在提高OOD数据泛化能力方面的有效性，在Food、KuaiRec、Yelp2018和Douban数据集上的平均改进分别为10.69%、18.83%、22.41%和11.65%。