LLM2D

摘要

arXiv:2410.20811v2 通报类型: 替换交叉摘要：基于深度学习的专家模型在象棋和围棋等决策领域已达到超人类性能。然而，解释或评论给定的决策尚未得到充分探索，尽管这对于模型解释性和人类教育至关重要。专家模型的输出非常准确，但对人类来说难以理解。另一方面，大型语言模型（LLMs）可以产生流畅的评论，但由于其有限的决策能力，容易产生幻觉。为了弥合专家模型和LLMs之间的差距，我们专注于象棋评论作为通过语言解释复杂决策过程的代表性任务，并解决评论的生成和评估。我们引入了概念引导的象棋评论生成 (CCC) 以生成评论，并基于GPT的象棋评论评估 (GCC-Eval) 以评估评论。CCC 通过优先、概念引导的解释，将专家模型的决策优势与LLMs的语言流畅性结合起来。GCC-Eval 利用专家知识，基于信息量和语言质量评估象棋评论。实验结果，经人类评委和GCC-Eval验证，表明CCC生成的评论准确、信息丰富且流畅。