摘要
arXiv:2504.02894v2 公告类型: 交叉替换
摘要:大规模语言模型(LLMs)已被广泛用于各种任务和应用。然而,LLMs和微调仅限于预训练数据。例如,ChatGPT直到2021年的世界知识可能已经过时或不准确。为了增强LLMs的能力,检索增强生成(RAG)被提出,旨在通过向LLMs添加额外的、新的、最新的细节和信息来增强其能力。虽然RAG提供了正确信息,但它可能无法以最佳方式呈现这些信息,特别是对于具有个性化需求的不同人群群体。通过人类反馈强化学习(RLHF)通过反馈循环将模型响应与人类偏好对齐,以适应用户需求。在现实世界的应用中,如心理健康问题,动态和基于反馈的模型会不断适应新信息,并在复杂因素在日常环境中波动时提供个性化帮助。因此,我们提出了一种基于在线强化学习的检索增强生成(OnRL-RAG)系统,用于检测和个性化响应系统,以应对心理健康问题,如压力、焦虑和抑郁症。我们使用2028年大学生开放源数据集,每个学生有28个调查问题,以展示我们提出系统与现有系统的性能。与标准RAG和简单的基于GPT-4o、GPT-4o-mini、Gemini-1.5和GPT-3.5的LLM相比,我们的系统表现出更优越的性能。这项工作将为日常环境中的个性化LLM服务的实际应用打开可能性。结果还将有助于社会学、心理学和神经科学领域的研究人员将他们的理论与实际的人类日常环境更加紧密地结合。