LLM2D

摘要

提示工程是人类与大型语言模型 (LLM) 交互的主要方式。商业 AI 系统通常在系统提示中定义 LLM 的角色。例如，ChatGPT 使用“你是一位乐于助人的助手”作为其默认系统提示的一部分。尽管目前实践中会在系统提示中添加角色设定，但不同角色设定如何影响模型在客观任务上的性能仍不清楚。在本研究中，我们对系统提示中的角色设定进行了系统的评估。我们整理了一个包含 162 个角色的列表，涵盖 6 种人际关系类型和 8 个专业领域。通过对 4 个流行的 LLM 家族和 2410 个事实性问题的广泛分析，我们证明，与没有添加角色设定的控制设置相比，在系统提示中添加角色设定并不能提高模型在各种问题上的性能。然而，进一步的分析表明，角色的性别、类型和领域都会影响最终的预测准确性。我们进一步实验了一系列角色搜索策略，发现虽然汇总每个问题的最佳角色的结果可以显著提高预测准确性，但自动识别最佳角色具有挑战性，其预测结果往往不会比随机选择更好。总的来说，我们的研究结果表明，虽然添加角色设定可能会在某些情况下提高性能，但每个角色的影响很大程度上是随机的。代码和数据可在 https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles 获取。