LLM2D

摘要

arXiv:2502.12876v1 宣布类型: 新摘要：创建个性化且适应性强的对话型AI依然是一项关键挑战。本文介绍了一种连续学习对话型AI（CLCA）的方法，该方法采用A2C强化学习实现，旨在超越静态大型语言模型（LLMs）。我们使用由LLMs生成的模拟销售对话来训练一个A2C代理。该代理学习优化对话策略以实现个性化，重点在于增强参与度和提供价值。我们的系统架构结合了强化学习与LLMs，用于数据创建和响应选择。该方法提供了通过连续学习构建个性化AI伴侣的一种实用方式，从而超越传统的静态LLM技术。