LLM2D

摘要

arXiv:2505.00793v1 通知类型: cross 摘要: 基于梯度的 bilevel 优化是一种强大的技术，应用于超参数优化、任务适配、算法发现、更广泛的元学习以及其他领域。这种方法经常需要通过梯度优化过程本身进行梯度求导，导致需要计算“梯度的梯度”计算，包括计算成本高昂的二阶和混合导数。虽然现代自动微分库提供了一种方便的方式来编写计算这些导数的程序，但它们通常无法开箱即用地充分利用这些问题的特定结构，导致性能不佳。在本文中，我们分析了这些情况，并提出了一种名为 Mixed-Flow Meta-Gradients（或 MixFlow-MG）的实用算法，该算法使用混合模式微分来构建更高效的可扩展计算图，在现代元学习设置中，与标准实现相比，内存使用量提高了10倍以上， wall-clock 时间减少了高达25%。