LLM2D

摘要

arXiv:2501.19245v2 公告类型: 新摘要: 强化学习(RL)提供了一种通用的方法来建模和训练AI代理，包括人与AI交互的场景。在本文中，我们提出了SHARPIE（共享的人与AI强化学习平台，用于交互实验）以满足在RL代理和人类之间进行实验所需的一种通用框架。其模块化设计包括灵活的RL环境包装器和算法库、面向参与者的服务端Web界面、日志工具、以及在流行的云平台和参与者招募平台上的部署。该平台使研究人员能够研究人类与RL代理人之间交互的各种研究问题，包括交互奖励指定和学习、从人类反馈学习、动作委托、偏好获取、用户建模以及人与AI协同工作等。该平台基于一种通用的人与RL交互接口，旨在在人类情境下的RL研究领域进行标准化。