摘要
arXiv:2504.14126v1 宣布类型: 新
摘要: 确定深度学习模型的最佳架构,如层数和神经元数量,是一个困难且资源密集的过程,通常依赖于人工调优或计算成本高昂的优化方法。虽然粒子群优化(PSO)和大型语言模型(LLMs)已在优化和深度学习中分别应用,但它们结合用于增强数值优化任务中的收敛性仍处于未充分探索的状态。我们的工作通过将LLMs整合到PSO中来填补这一空白,以减少模型评估次数并改善深度学习超参数调优的收敛性。所提出的方法通过使用LLMs(特别是ChatGPT-3.5和Llama3)来改善PSO性能,从而提高目标目标实现速度。该方法通过用LLMs提供的最佳建议替换表现不佳的粒子位置来加速搜索空间探索。在三种场景下进行了广泛的实验——(1)优化Rastrigin函数,(2)使用长短时记忆(LSTM)网络进行时间序列回归,(3)使用卷积神经网络(CNN)进行材料分类——显示该方法显著提高了收敛速率并降低了计算成本。与传统PSO方法相比,根据不同应用,计算复杂度降低了20%到60%。对于回归任务,Llama3实现了20%到40%的模型调用减少,而ChatGPT-3.5在回归和分类任务中分别实现了60%的模型调用减少,同时保持了准确性和错误率。这一开创性方法提供了一种非常高效且有效的深度学习模型优化解决方案,广泛应用于各种应用中,带来了显著的计算性能提升。