摘要
arXiv:2504.12333v1 交叉公告类型
摘要:在严肃游戏中评估开放式的响应具有独特挑战,因为正确性往往是主观的。大型语言模型(LLMs)越来越多地被探索作为此类背景下的评估工具,但其准确性和一致性仍不确定,特别是对于那些旨在本地执行的小型模型。本研究调查了五种小型规模的LLMs在评估《En-join》游戏中玩家响应时的可靠性,该游戏模拟了能源社区内的决策制定过程。通过利用传统的二分类指标(包括准确率、真正阳性率和真阴性率),我们系统地对比了这些模型在不同评估场景下的表现。我们的结果突显了每个模型的强点和局限性,揭示了灵敏度、特异性和整体性能之间的权衡。我们展示了有些模型在识别正确响应方面表现出色,而其他模型则在假阳性或不一致的评估中遇到困难。这些发现强调了需有上下文感知的评估框架和仔细选择模型的重要性,以部署LLMs作为评估工具。这项工作为更广泛的关于AI驱动评估工具可信性的讨论做出了贡献,提供了不同LLM架构处理主观评估任务的见解。