LLM2D

摘要

大型语言模型和视觉语言模型等生成模型输出质量的评估面临着显著挑战。传统的评估方法通常依赖于耗费资源的人工评估，或与人工判断的相关性较低的自动指标。另一种常见的方法是使用深度学习系统，这不仅消耗大量的计算资源和时间，而且需要大量的训练数据。本研究引入了一个无需调参的框架 ReFeR，该框架旨在通过利用两级层次结构的大型语言模型和视觉语言模型本身来评估文本和图像等生成输出。我们对 ReFeR 框架进行了严格的评估，涵盖四个不同的评估任务。该框架不仅提高了评估的准确性，超越了之前的基准，而且能够生成建设性的反馈。有趣的是，该框架也适用于推理任务。在四个推理任务上的实验表明，该框架具有优越的集体推理能力。我们提出了该框架的两个变体：ReFeR-Turbo，针对加速性能进行了优化；ReFeR-Lite，提供了一种更经济高效的解决方案。ReFeR-Lite 的效率提高了约 7.7 倍，同时与 ReFeR-Turbo 的准确性相当。我们公开了代码、数据和 PIP 包。