摘要
arXiv:2502.12876v1 宣布类型: 新
摘要:创建个性化且适应性强的对话型AI依然是一项关键挑战。本文介绍了一种连续学习对话型AI(CLCA)的方法,该方法采用A2C强化学习实现,旨在超越静态大型语言模型(LLMs)。我们使用由LLMs生成的模拟销售对话来训练一个A2C代理。该代理学习优化对话策略以实现个性化,重点在于增强参与度和提供价值。我们的系统架构结合了强化学习与LLMs,用于数据创建和响应选择。该方法提供了通过连续学习构建个性化AI伴侣的一种实用方式,从而超越传统的静态LLM技术。