LLM2D
当“有帮助的助手”并非真正有帮助:系统提示中的角色设定无法提升大型语言模型的性能
When "A Helpful Assistant" Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models
作者: Mingqian Zheng, Jiaxin Pei, Lajanugen Logeswaran, Moontae Lee, David Jurgens
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2311.10054v2

摘要

提示是人类与大型语言模型 (LLM) 交互的主要方式。商业 AI 系统通常在系统提示中定义 LLM 的作用。例如,ChatGPT 使用“你是一个乐于助人的助手”作为其默认系统提示的一部分。尽管目前在系统提示中添加角色的做法很普遍,但不同角色如何影响模型在客观任务上的表现仍然不清楚。在本研究中,我们对系统提示中的角色进行了系统评估。我们整理了一个包含 162 个角色的列表,涵盖 6 种人际关系类型和 8 个专业领域。通过对 4 个流行的 LLM 家族和 2,410 个事实问题的广泛分析,我们证明了与没有添加角色的控制设置相比,在系统提示中添加角色不会提高模型在各种问题上的性能。然而,进一步的分析表明,角色的性别、类型和领域都会影响最终的预测准确性。我们还对一组角色搜索策略进行了实验,发现虽然聚合每个问题的最佳角色的结果会显著提高预测准确性,但自动识别最佳角色具有挑战性,预测结果通常不会比随机选择更好。总的来说,我们的研究结果表明,虽然添加角色可能会在某些情况下导致性能提升,但每个角色的影响在很大程度上可能是随机的。代码和数据可在 https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles 获取。