摘要
arXiv:2411.12405v2 提交类型: 替换-交叉
摘要:构建多元AI需要设计能够被塑造成反映广泛价值观和文化模型。要实现这一点,首先需要能够评估给定模型在多大程度上能够反映出各种人格特质。为此,我们提出了一种评估模型人格可塑性的基准,该评估基于提示可塑性的形式定义,分析模型联合行为分布可以被基线行为转移的程度。通过定义可塑性指标并检查这些指标随引导努力变化的方式,我们可以估计模型在各种人格维度和方向上的可塑性。我们的基准表明,许多当前模型的可塑性有限——这既是因为它们基线行为的偏差,也是因为它们在许多人格维度上的可塑性存在不对称性。我们将在 https://github.com/IBM/prompt-steering 上发布我们基准的实现。