LLM2D
大型语言模型中面向多上下文一致性的语义分层扩散嵌入
Semantic Layered Embedding Diffusion in Large Language Models for Multi-Contextual Consistency
作者: Irin Kabakum, Thomas Montgomery, Daniel Ravenwood, Genevieve Harrington
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2501.15405v2

摘要

arXiv:2501.15405v2 宣告类型: replace-cross 摘要:语义分层嵌入扩散(SLED)机制重新定义了基于Transformer架构中层级语义的表示,使广泛的语言任务具有增强的上下文一致性。通过引入基于谱分析的多层扩散过程,它实现了全局和局部语义一致性的复杂平衡。实验结果表明,在困惑度和BLEU评分方面有显著改进,强调了该机制在不同领域,包括多语言和跨域文本生成中有效适应的能力。嵌入扩散过程的基础是一个严密的数学框架,包含加权邻接矩阵、核基改进和动态层归一化。误差分布分析表明,SLED解决了语义对齐和一致性的挑战,在多种基准测试中优于基线方法。可扩展性研究展示了其在不同模型大小上的性能提升保持一致性,反映出在计算效率和语言精确性之间的一种实用平衡。该实现还实现了能效,减少了训练和推理阶段的资源消耗,而不牺牲准确性。质性案例研究进一步验证了其在扩展叙述和上下文密集场景中的适应性,突显了该机制在实际应用中的潜力。SLED为嵌入设计及其对推进语言建模的影响提供了不同的视角。