LLM2D

摘要

arXiv:2502.08759v1 宣告类型: 新摘要: 在 recent 年，基于偏好的人类反馈机制已经成为提高各种应用中模型性能的关键，包括对话型 AI 系统，如 ChatGPT。然而，现有的方法通常忽略了关键方面，例如模型的不确定性以及反馈质量的变异性。为了解决这些挑战，我们引入了一种基于熵的人类反馈框架，该框架通过在模型熵超过预定义阈值时仅请求专家反馈，动态平衡探索与利用。我们的方法是模型无拘束的，并且可以无缝集成到任何采用随机策略的上下文臂代理中。通过全面的实验，我们展示了我们的方法能够在要求最少人类反馈的情况下实现显著的性能提升，即使在反馈质量不佳的情况下也是如此。这项工作不仅提出了一种新的反馈请求策略，还强调了将人类指导纳入机器学习系统中的鲁棒性和有效性。我们的代码已公开：https://github.com/BorealisAI/CBHF