LLM2D

摘要

现有的自动提示工程方法通常是为判别性任务设计的，其中新的任务提示会根据反映单一方面的单个指标的有限反馈进行迭代优化。然而，这些方法对于生成性任务来说并不理想，因为生成性任务需要更细致的指导，而不仅仅是单个数值指标，才能改进提示并优化生成的文本的多个方面。为了解决这些挑战，我们提出了一种新的多方面评价-建议引导自动提示优化 (CriSPO) 方法。CriSPO 将评价-建议模块作为其核心组件。该模块自发地发现方面，并在这些方面比较生成的文本和参考文本，为提示修改提供具体的建议。这些清晰的评价和可操作的建议指导一个接受性优化器模块进行更实质性的更改，探索更广泛、更有效的搜索空间。为了进一步改进 CriSPO 的多指标优化，我们引入了自动后缀调整 (AST) 扩展，以提高任务提示在多个指标上的性能。我们在 4 个最先进的 LLM 上对 4 个摘要数据集和 5 个问答数据集进行了 CriSPO 的评估。大量实验表明，摘要的 ROUGE 得分提高了 3-4%，问答的各种指标也得到了显著提高。