LLM2D

摘要

荧光寿命成像 (FLI) 是一种广泛应用于生物医学领域的测量荧光分子衰减时间的技术，可提供对代谢状态、蛋白质相互作用和配体-受体结合的见解。然而，其在快速生物过程（如动态活动监测）和临床应用（如引导手术）中的更广泛应用受到长时间数据采集时间和计算量大的数据处理的限制。虽然深度学习减少了后处理时间，但时间分辨数据采集仍然是实时应用的瓶颈。为了解决这个问题，我们提出了一种使用基于 FPGA 的硬件加速器实现实时 FLI 的方法。具体来说，我们在与时间分辨相机兼容的 FPGA 板上实现了基于 GRU 的序列到序列 (Seq2Seq) 模型。GRU 模型在资源受限的 FPGA 上平衡了精确处理，FPGA 的 DSP 单元和 BRAM 有限。FPGA 上有限的内存和计算资源需要有效地调度操作和内存分配，以部署用于低延迟应用的深度学习模型。我们通过使用 STOMP 来解决这些挑战，STOMP 是一种基于队列的离散事件模拟器，它可以自动优化硬件上的任务调度和内存管理。通过集成基于 GRU 的 Seq2Seq 模型及其通过知识蒸馏生成的压缩版本，称为 Seq2SeqLite，我们能够并行处理多个像素，与顺序处理相比，延迟降低。我们探索了不同级别的并行性，以实现性能和资源利用之间的最佳平衡。我们的结果表明，所提出的技术分别对 Seq2Seq 模型和 Seq2SeqLite 模型实现了 17.7 倍和 52.0 倍的加速，超过了手动调度。