LLM2D

摘要

arXiv:2502.00595v1 通知类型: 交叉摘要: 我们介绍了RPGBench，这是第一个旨在评估大型语言模型（LLMs）作为文本角色扮演游戏（RPG）引擎的基准测试。RPGBench 包含两个核心任务：游戏创作（GC）和游戏模拟（GS）。在GC任务中，LLM必须使用结构化的事件状态表示来构建一个有效且可玩的RPG世界，并确保逻辑连贯性和适当的终止条件。在GS任务中，LLM必须在多轮互动游戏过程中一致地更新状态并遵循游戏规则。为了全面评估性能，RPGBench 结合了客观和主观的评估方法。客观指标验证了事件机制的一致性，并检查变量更新，不需要人工干预。主观评估指标，如内容趣味性、行动质量以及角色扮演能力，则通过一种LLM评判框架进行评估，在这种框架中，强大的LLM对每个候选的输出进行评分。实验证明，最先进的LLM能够产生引人入胜的故事，但在实现一致的、可验证的游戏机制方面经常遇到困难，尤其是在长篇或多场景的情况下。通过将结构化、基于规则的评估与LLM评判相结合，RPGBench 为评估LLM在文本RPG中平衡创造力、连贯性和复杂性提供了新的标准，这为更沉浸式和可控的交互性叙事打开了新的途径。