LLM2D

摘要

arXiv:2502.10699v1 宣告类型: cross 摘要：在语言模型的发展中，上下文记忆整合仍然是一个高挑战，特别是在需要维持长时间序列连贯性时。传统方法，如自我注意力机制和记忆增强架构，通常优先处理短期依赖关系，导致长距离上下文理解中的碎片化和不一致性。受生物神经系统中观察到的突触可塑性原理的启发，提出了一种新的机制——突触共振，在训练和推理过程中动态强化相关记忆路径。与静态记忆表示不同，该机制根据上下文相关性连续调整突触权重矩阵，从而在不增加过多计算开销的情况下提高信息保留能力。在开源语言模型上的评估结果表明，该机制降低了困惑度，提高了上下文连贯性，并增强了对输入噪声的稳健性，突显了以强化驱动的记忆调制的有效性。与基线模型的比较分析进一步显示，提出的这种方法在保持计算可行性的同时实现了更高的记忆保留效率。这些架构修改无缝集成到现有的基于变换器的框架中，确保了稳定的收敛性和高效推理，而不牺牲可扩展性。受益于改善的长期上下文一致性的应用，如对话系统和文档摘要，可以从这种方法中受益。实证研究结果表明，动态增强的记忆路径提供了一种有前景的替代传统记忆机制的选择，解决了扩展序列建模中的长期局限性。