LLM2D
TOWER:用于评估复杂指令的树形组织权重方法
TOWER: Tree Organized Weighting for Evaluating Complex Instructions
作者: Noah Ziems, Zhihan Zhang, Meng Jiang
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06089v1

摘要

评估大型语言模型 (LLMs) 遵循复杂的人工书写指令的能力对于它们在现实世界应用中的部署至关重要。虽然像 Chatbot Arena 这样的基准测试使用人工评判来评估模型性能,但它们资源密集且耗时。使用 LLMs 作为评判者的替代方法,例如 AlpacaEval、MT Bench、WildBench 和 InFoBench,提供了改进,但仍然没有捕捉到某些复杂指令方面比其他方面更重要的这一点。 为了弥补这一差距,我们提出了一种新的评估指标 \textsc{TOWER},它将人工评判的重要性纳入对复杂指令遵循的评估。我们证明,人工标注者对这些复杂指令的树状表示的认同程度几乎与他们对其他人工标注者的认同程度一样高。我们发布了 InFoBench 数据集的树状标注和相应的评估代码,以促进未来的研究。