LLM2D

摘要

arXiv:2504.02894v3 更新类型: replace-cross 摘要：大规模语言模型（LLMs）已被广泛用于各种任务和应用。然而，LLMs和微调仅限于预训练数据。例如，ChatGPT在其2021年之前的世界知识可能过时或不准确。为了增强LLMs的能力，提出了检索增强生成（RAG），它通过提供额外的新鲜和最新的细节与信息来增强LLMs。虽然RAG可以提供正确的信息，但它可能无法最佳地呈现这些信息，尤其是在面向不同具有个性化需求的人群群体时。强化学习从人类反馈（RLHF）通过反馈循环使模型响应与人类偏好对齐，以适应用户需求。在实际应用中，例如心理健康问题，由于日常环境中复杂因素的变化，一个动态且反馈驱动的系统会持续适应新信息并提供个性化的帮助。因此，我们提出了一个基于在线强化学习的检索增强生成（OnRL-RAG）系统，用于检测和个性化应对心理健康问题（如压力、焦虑和抑郁）的响应系统。我们使用一个收集自2028年大学生的数据集，其中每位学生有28个调查问题，来展示我们所提出系统的性能与现有系统的对比。与标准RAG和简单的基于GPT-4o、GPT-4o-mini、Gemini-1.5和GPT-3.5的LLMs相比，我们的系统实现了更优越的性能。这项工作将为LLMs在日常生活环境中提供个性化服务的实际应用铺平道路。结果还将帮助社会学、心理学和神经科学领域的研究人员更贴近实际的人类日常环境，使其理论更加符合实际。