摘要
尽管人工智能和自然语言处理取得了最近的进展,但谈判仍然是人工智能代理的一个难题。传统的博弈论方法在双人零和博弈中效果很好,但在谈判的背景下却难以奏效,因为它们无法学习与人类兼容的策略。另一方面,仅使用人类数据的策略往往是特定于领域的,并且缺乏基于博弈论的策略所提供的理论保证。受公平作为一般和博弈最优性标准的启发,我们提出了一种名为 FDHC 的谈判框架,该框架将公平性纳入奖励设计和搜索,以学习与人类兼容的谈判策略。我们的方法包括一种新颖的 RL+搜索技术,称为 LGM-Zero,它利用预训练的语言模型从大型动作空间中检索与人类兼容的提议。我们的结果表明,我们的方法能够实现更平等的谈判结果并提高谈判质量。