LLM2D

摘要

arXiv:2505.02314v1 类型:交叉摘要:人工智能（AI）应用程序的指数级增长暴露了传统冯·诺依曼架构的低效性，其中计算单元与内存之间的频繁数据传输造成了重大的能量和延迟瓶颈。模拟计算在内存中（Analog Computing-in-Memory, ACIM）通过直接在内存阵列中执行乘累加（MAC）操作解决了这一挑战，大幅减少了数据移动。然而，设计稳健的ACIM加速器需要准确建模器件和电路级的非理想性。在本文中，我们介绍了NeuroSim V1.5，并介绍了几项关键进展：(1) 无缝集成TensorRT的后训练量化流程，支持更多的神经网络，包括变压器；(2) 基于预表征的统计模型构建灵活的噪声注入方法，使得从SPICE仿真或硅测量中引入数据变得简单；(3) 扩展了设备支持，包括新兴的非易失性电容式存储器；(4) 通过优化行为仿真，NeuroSim V1.5比NeuroSim V1.4快6.5倍的运行时。这些能力的结合使得在准确性和硬件效率指标上系统设计空间探索成为可能。通过多个案例研究，我们在保持网络准确性的前提下优化了关键设计参数。通过将高保真噪声建模与高效仿真相结合，NeuroSim V1.5推进了下一代ACIM加速器的设计和验证。所有NeuroSim版本均可在 https://github.com/neurosim/NeuroSim 开源获取。