摘要
arXiv:2405.01768v2 更新类型: replace-cross
摘要: 当查询大型语言模型(LLM)时,上下文,即特定于最终用户的个人、人口统计和文化信息,可以显著影响LLM的响应。例如,要求模型用上下文“I是一个学步儿”来解释牛顿第二定律,其答案与用上下文“I是一个物理教授”解释会有很大不同。适当使用上下文可以使LLM生成个性化响应;而不当的上下文影响可能导致刻板和潜在有害的生成(比如将“女性”与“家庭女仆”联系起来)。在实践中,利用上下文时把握合适的平衡是一个复杂且往往具有情境依赖性的挑战。为了解决这一挑战,一个常见的方法是通过上下文适当的响应对LLM进行微调。然而,这种方法既昂贵又耗时,并且对于不同情境下的最终用户来说并不可控。在这项工作中,我们提出了上下文指引(CoS)——一种简单的无需训练的方法,可以在推理时便捷地应用于自回归LLM。通过衡量上下文影响的词汇预测概率并在其中进行调节,我们的方法使实践者能够根据其具体的使用案例和最终用户基础确定适当的上下文影响水平。我们展示了CoS的各种应用场景,包括放大上下文影响以实现更好的个性化以及降低不必要的影响以减少模型偏见。此外,我们展示了可以将CoS与贝叶斯推理结合使用来量化互联网上的仇恨言论程度。我们证明了CoS在最先进的LLM和基准测试中的有效性。