LLM2D
评估大型语言模型的提示可控性
Evaluating the Prompt Steerability of Large Language Models
作者: Erik Miehling, Michael Desmond, Karthikeyan Natesan Ramamurthy, Elizabeth M. Daly, Pierre Dognin, Jesus Rios, Djallel Bouneffouf, Miao Liu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2411.12405v2

摘要

arXiv:2411.12405v2 提交类型: 替换-交叉 摘要:构建多元AI需要设计能够被塑造成反映广泛价值观和文化模型。要实现这一点,首先需要能够评估给定模型在多大程度上能够反映出各种人格特质。为此,我们提出了一种评估模型人格可塑性的基准,该评估基于提示可塑性的形式定义,分析模型联合行为分布可以被基线行为转移的程度。通过定义可塑性指标并检查这些指标随引导努力变化的方式,我们可以估计模型在各种人格维度和方向上的可塑性。我们的基准表明,许多当前模型的可塑性有限——这既是因为它们基线行为的偏差,也是因为它们在许多人格维度上的可塑性存在不对称性。我们将在 https://github.com/IBM/prompt-steering 上发布我们基准的实现。