LLM2D
可根据偏好数值调整的聊天机器人:基于偏好的激活调整个性化大语言模型
Steerable Chatbots: Personalizing LLMs with Preference-Based Activation Steering
作者: Jessica Y. Bo, Tianyu Xu, Ishan Chatterjee, Katrina Passarella-Ward, Achin Kulshrestha, D Shin
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.04260v2

摘要

arXiv:2505.04260v2 通知类型: replace-cross 摘要:随着大规模语言模型(LLMs)在作为个人AI助手的能力上不断提高,它们能够输出与用户软偏好相匹配的独特个性化响应的能力对于提升用户体验和留存至关重要。然而,未经训练的普通用户在描述其隐含偏好时的能力较差,往往难以向AI助手传达其偏好。为了解决这一问题,我们利用激活引导在推理过程中引导LLMs与可解释的偏好维度对齐。与需要更长用户历史的记忆式个性化方法不同,激活引导极其轻量级,可以通过线性的强度因子由用户轻松控制。我们将激活引导嵌入到三种不同的交互式聊天机器人界面中,并进行了一个单被试内实验(n=14),以调查终端用户如何个性化他们的对话。结果表明,基于偏好的引导对于将实际对话与隐藏的用户偏好对齐是有效的,并强调了控制、使用性和透明性等不同价值观如何引导用户偏好不同的界面的进一步见解。