LLM2D
角色强化学习:针对不同大型语言模型的最优角色,实现在线长文本处理
Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles
作者: Lewei He, Tianyu Shi, Pengran Huang, Bingzhi Chen, Qianglong Chen, Jiahui Pan
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.18014v1

摘要

具有长上下文处理能力的大型语言模型(LLM)由于其实现复杂性、训练效率和数据稀疏性而仍然面临挑战。为了解决这个问题,当我们处理无限长度的文档时,提出了一种名为在线长上下文处理(OLP)的新范式,这在自动新闻报道、实时电子商务和病毒式短视频等各种流媒体的信息接收和组织中普遍存在。此外,在爆炸式增长中,我们试图从众多 LLM 中选择最合适的 LLM 时,经常会遇到一个困境,即追求出色的性能、经济实惠的价格和较短的响应延迟。鉴于此,我们还开发了角色强化学习(Role-RL)来根据其实际性能自动将不同的 LLM 部署到 OLP 管道中的各自角色中。在我们的 OLP-MINI 数据集上进行了广泛的实验,发现具有 Role-RL 框架的 OLP 实现了 OLP 基准,平均召回率为 93.2%,LLM 成本节省了 79.4%。代码和数据集可在以下地址公开获取:https://anonymous.4open.science/r/Role-RL。