摘要
提示工程是人类与大型语言模型 (LLM) 交互的主要方式。商业 AI 系统通常在系统提示中定义 LLM 的角色。例如,ChatGPT 使用“你是一位乐于助人的助手”作为其默认系统提示的一部分。尽管目前实践中会在系统提示中添加角色设定,但不同角色设定如何影响模型在客观任务上的性能仍不清楚。在本研究中,我们对系统提示中的角色设定进行了系统的评估。我们整理了一个包含 162 个角色的列表,涵盖 6 种人际关系类型和 8 个专业领域。通过对 4 个流行的 LLM 家族和 2410 个事实性问题的广泛分析,我们证明,与没有添加角色设定的控制设置相比,在系统提示中添加角色设定并不能提高模型在各种问题上的性能。然而,进一步的分析表明,角色的性别、类型和领域都会影响最终的预测准确性。我们进一步实验了一系列角色搜索策略,发现虽然汇总每个问题的最佳角色的结果可以显著提高预测准确性,但自动识别最佳角色具有挑战性,其预测结果往往不会比随机选择更好。总的来说,我们的研究结果表明,虽然添加角色设定可能会在某些情况下提高性能,但每个角色的影响很大程度上是随机的。代码和数据可在 https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles 获取。