LLM2D

摘要

arXiv:2505.05794v1 交叉类型：研究型摘要：大型语言模型（LLMs）正迅速将当前计算硬件的极限推向新的高度。例如，训练GPT-3据估计消耗了大约1300 MWh的电力，而未来模型可能需要城市级别的（吉瓦级）电力预算。这些需求推动了对超越传统冯·诺依曼架构的计算范式的探索。本文综述了为下一代生成型AI计算而优化的新兴光子硬件。我们讨论了集成光子神经网络架构（例如，Mach-Zehnder干干干涉仪网格、激光器、波长复用微环谐振器），这些架构能够执行超高速矩阵操作。我们还考察了有前景的替代神经形态设备，包括突触神经网络电路和磁电-光子混合突触，这些设备结合了记忆和处理功能。我们回顾了将二维材料（石墨烯、TMD）集成到硅光子平台以实现可调调制器和片上突触元素的过程。本文在此背景下分析了基于变换器的LLM架构（自注意力层和前馈层），确定了将动态矩阵乘法映射到这些新型硬件基板上的策略和挑战。然后，我们解析了主流LLM（如ChatGPT、DeepSeek和LLaMA）的机制，强调它们的架构相似点和差异。我们综合了最先进的组件、算法和集成方法，阐明了将这些系统扩展到超大型LLM模型过程中的关键进展和开放问题。我们发现，光子计算系统在吞吐量和能源效率方面可能比电子处理器高出一个数量级甚至更多，但需要在内存方面取得突破，特别是在长上下文窗口和长标记序列方面，以及对超大数据集的存储方面。