LLM2D

摘要

尽管人工智能和自然语言处理取得了最近的进展，但谈判仍然是人工智能代理的一个难题。传统的博弈论方法在双人零和博弈中效果很好，但在谈判的背景下却难以奏效，因为它们无法学习与人类兼容的策略。另一方面，仅使用人类数据的策略往往是特定于领域的，并且缺乏基于博弈论的策略所提供的理论保证。受公平作为一般和博弈最优性标准的启发，我们提出了一种名为 FDHC 的谈判框架，该框架将公平性纳入奖励设计和搜索，以学习与人类兼容的谈判策略。我们的方法包括一种新颖的 RL+搜索技术，称为 LGM-Zero，它利用预训练的语言模型从大型动作空间中检索与人类兼容的提议。我们的结果表明，我们的方法能够实现更平等的谈判结果并提高谈判质量。