摘要
arXiv:2504.02894v3 更新类型: replace-cross
摘要:大规模语言模型(LLMs)已被广泛用于各种任务和应用。然而,LLMs和微调仅限于预训练数据。例如,ChatGPT在其2021年之前的世界知识可能过时或不准确。为了增强LLMs的能力,提出了检索增强生成(RAG),它通过提供额外的新鲜和最新的细节与信息来增强LLMs。虽然RAG可以提供正确的信息,但它可能无法最佳地呈现这些信息,尤其是在面向不同具有个性化需求的人群群体时。强化学习从人类反馈(RLHF)通过反馈循环使模型响应与人类偏好对齐,以适应用户需求。在实际应用中,例如心理健康问题,由于日常环境中复杂因素的变化,一个动态且反馈驱动的系统会持续适应新信息并提供个性化的帮助。因此,我们提出了一个基于在线强化学习的检索增强生成(OnRL-RAG)系统,用于检测和个性化应对心理健康问题(如压力、焦虑和抑郁)的响应系统。我们使用一个收集自2028年大学生的数据集,其中每位学生有28个调查问题,来展示我们所提出系统的性能与现有系统的对比。与标准RAG和简单的基于GPT-4o、GPT-4o-mini、Gemini-1.5和GPT-3.5的LLMs相比,我们的系统实现了更优越的性能。这项工作将为LLMs在日常生活环境中提供个性化服务的实际应用铺平道路。结果还将帮助社会学、心理学和神经科学领域的研究人员更贴近实际的人类日常环境,使其理论更加符合实际。