LLM2D

摘要

arXiv:2504.04717v3 宣告类型：replace-cross 摘要：近期大型语言模型（LLMs）的发展已经彻底改变了它们处理单轮任务的能力，但现实世界的应用需求更加复杂的多轮交互。本文综述了最近在评估和增强LLMs中的多轮交互方面的进展。本文聚焦于特定任务场景，从数学和编程等不同领域的指令跟随到复杂的情景剧对话、医疗、教育，甚至敌对的监狱逃脱设置中的对话交互，系统地探讨了在长时间对话中保持上下文、连贯性、公平性和响应性的挑战。该论文将当前的评估基准和数据集组织成一系列反映多轮对话评估演变趋势的类别。此外，本文还回顾了在多轮场景下的一系列增强方法，包括模型中心策略（上下文学习、监督微调、强化学习和新的架构）、外部整合方法（增强记忆的方法、检索基方法和知识图谱），以及基于代理的技术以支持协作交互。最后，本文讨论了存在的挑战，并提出了未来研究的方向，以进一步提高LLMs中多轮交互的可靠性和有效性。相关资源和论文可在 https://github.com/yubol-cmu/Awesome-Multi-Turn-LLMs 获取。