摘要
arXiv:2502.00595v1 通知类型: 交叉
摘要: 我们介绍了RPGBench,这是第一个旨在评估大型语言模型(LLMs)作为文本角色扮演游戏(RPG)引擎的基准测试。RPGBench 包含两个核心任务:游戏创作(GC)和游戏模拟(GS)。在GC任务中,LLM必须使用结构化的事件状态表示来构建一个有效且可玩的RPG世界,并确保逻辑连贯性和适当的终止条件。在GS任务中,LLM必须在多轮互动游戏过程中一致地更新状态并遵循游戏规则。为了全面评估性能,RPGBench 结合了客观和主观的评估方法。客观指标验证了事件机制的一致性,并检查变量更新,不需要人工干预。主观评估指标,如内容趣味性、行动质量以及角色扮演能力,则通过一种LLM评判框架进行评估,在这种框架中,强大的LLM对每个候选的输出进行评分。实验证明,最先进的LLM能够产生引人入胜的故事,但在实现一致的、可验证的游戏机制方面经常遇到困难,尤其是在长篇或多场景的情况下。通过将结构化、基于规则的评估与LLM评判相结合,RPGBench 为评估LLM在文本RPG中平衡创造力、连贯性和复杂性提供了新的标准,这为更沉浸式和可控的交互性叙事打开了新的途径。