LLM2D

摘要

arXiv:2501.19245v1 宣告类型: 新增摘要: 强化学习（RL）提供了一种通用方法来建模和训练包括人机交互场景在内的AI代理。在本文中，我们提出了SHARPIE（共享人机强化学习平台，用于交互实验），以应对在RL代理和人类之间进行实验所需的通用框架的需要。其模块化设计包括一个针对RL环境和算法库的多功能包装器、一个面向参与者的网页界面、日志工具、在流行云平台和参与者招募平台上的部署。它使研究人员能够研究人类与RL代理交互相关的广泛研究问题，包括交互奖励规范和学习、从人类反馈学习、动作委派、偏好引出、用户建模以及人机协同等工作。该平台基于一个通用的人机交互界面，旨在在RL在人类情境中的研究领域实现标准化。