LLM2D

摘要

提示是人类与大型语言模型 (LLM) 交互的主要方式。商业 AI 系统通常在系统提示中定义 LLM 的作用。例如，ChatGPT 使用“你是一个乐于助人的助手”作为其默认系统提示的一部分。尽管目前在系统提示中添加角色的做法很普遍，但不同角色如何影响模型在客观任务上的表现仍然不清楚。在本研究中，我们对系统提示中的角色进行了系统评估。我们整理了一个包含 162 个角色的列表，涵盖 6 种人际关系类型和 8 个专业领域。通过对 4 个流行的 LLM 家族和 2,410 个事实问题的广泛分析，我们证明了与没有添加角色的控制设置相比，在系统提示中添加角色不会提高模型在各种问题上的性能。然而，进一步的分析表明，角色的性别、类型和领域都会影响最终的预测准确性。我们还对一组角色搜索策略进行了实验，发现虽然聚合每个问题的最佳角色的结果会显著提高预测准确性，但自动识别最佳角色具有挑战性，预测结果通常不会比随机选择更好。总的来说，我们的研究结果表明，虽然添加角色可能会在某些情况下导致性能提升，但每个角色的影响在很大程度上可能是随机的。代码和数据可在 https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles 获取。