摘要
评估大型语言模型 (LLMs) 遵循复杂的人工书写指令的能力对于它们在现实世界应用中的部署至关重要。虽然像 Chatbot Arena 这样的基准测试使用人工评判来评估模型性能,但它们资源密集且耗时。使用 LLMs 作为评判者的替代方法,例如 AlpacaEval、MT Bench、WildBench 和 InFoBench,提供了改进,但仍然没有捕捉到某些复杂指令方面比其他方面更重要的这一点。
为了弥补这一差距,我们提出了一种新的评估指标 \textsc{TOWER},它将人工评判的重要性纳入对复杂指令遵循的评估。我们证明,人工标注者对这些复杂指令的树状表示的认同程度几乎与他们对其他人工标注者的认同程度一样高。我们发布了 InFoBench 数据集的树状标注和相应的评估代码,以促进未来的研究。