LLM2D

摘要

arXiv:2504.07398v1 Announce Type: cross 摘要：序列推荐（SR），通过编码用户行为来预测下一个动作，已经成为开发商业个性化推荐系统中广泛采用的一种策略。尽管基于Transformer的模型在序列推荐中已被证明是有效的，但Transformer中的自注意力模块的复杂性随着序列长度的增加而呈二次增长。对于大规模推荐系统而言，控制模型复杂度至关重要，因为这些系统可能需要处理庞大且不断变化的词汇表（达到十亿级别），以及长度可超过数万的动作序列。在本文中，我们提出了一种新颖的多头潜在Mamba架构，该架构使用多个低维度Mamba层和全连接层与位置编码相结合，同时在每个潜在子空间内捕捉历史和项目信息。我们提出的方法不仅能够扩展到大规模参数，还可以通过整合和微调LLM扩展到多领域推荐。通过在公开数据集上的大量实验，我们展示了Hydra如何有效解决了效率-效果 dilemma，与最先进的序列推荐基线相比，使用了显著较少的参数和更短的训练时间。