LLM2D

摘要

批量提示是大型语言模型 (LLM) 中常用的技术，用于同时处理多个输入，旨在提高计算效率。然而，随着批次大小的增加，由于模型难以处理冗长的上下文输入，性能通常会下降。现有的缓解这些问题的方法仅依赖于批次数据的排列和多数投票，而不是改进批次提示本身的设计。在本文中，我们通过提出“自动演示提示”来解决这些限制，这是一种新方法，利用批次中先前问题的问答对作为后续答案推断的演示。我们提供了对自动演示提示如何在 LLMs 的自回归生成过程中起作用的正式理论分析，说明了它如何利用先前的输出来优化模型的内部表示。我们的方法有效地弥合了批量提示和少样本提示之间的差距，仅以少量令牌使用量的妥协来提高性能。五个 NLP 任务的实验结果证明了它在减轻性能下降方面的有效性，并且偶尔优于单一提示。此外，它为在批量提示中应用少样本学习技术（例如演示选择）开辟了新的途径，使其成为现实世界应用的稳健解决方案。