LLM2D
可引导的聊天机器人:基于偏好激活引导的个性化LLMs
Steerable Chatbots: Personalizing LLMs with Preference-Based Activation Steering
作者: Jessica Y. Bo, Tianyu Xu, Ishan Chatterjee, Katrina Passarella-Ward, Achin Kulshrestha, D Shin
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.04260v1

摘要

arXiv:2505.04260v1 类别: cross 摘要: 随着大型语言模型 (LLMs) 在充当个人AI助手方面的功能能力提升,输出独特且个性化响应的能力变得至关重要,这种响应能够与用户柔和的偏好相匹配,从而提高用户满意度和留存率。然而,未经训练的普通用户在编写提示的能力上很弱,并且经常难以向AI助手表达其隐含的偏好。为解决这一问题,我们利用激活引导,在推理过程中引导LLMs与可解释的偏好维度相一致。与需要更长用户历史的记忆基于个性化方法不同,激活引导极其轻量级,并且可以通过一个线性的强度因子由用户轻松控制。我们将激活引导嵌入到三种不同的交互式聊天机器人界面中,并进行了一项针对14名参与者的重复被试研究,以调查最终用户如何个性化他们的对话。研究结果展示了基于偏好引导的有效性,证明了其在与隐藏的用户偏好对齐实际对话方面的效果,并突显了不同的控制、易用性和透明度价值观如何引导用户偏好不同的界面。