LLM2D

摘要

arXiv:2501.15708v3 宣告类型: replace-cross 摘要：分类任务在情境学习（ICL）范式中得到了广泛的研究。然而，当前的努力是在不相交的基准和设置上进行评估的，而这些性能受到了一些琐碎变量的影响，例如提示模板、数据采样、指令等，这导致了在各种文献中报告结果的一致性较差，阻碍了不同论文之间的公平比较或元分析。因此，本文提出了一套标准化且易于使用的评估工具包（StaICC）用于情境分类。对于普通的分类任务，我们提供了StaICC-Normal，选择了10个广泛使用的数据集，并生成固定形式的提示，以减轻实验实现之间的差异性影响。为了丰富我们基准的使用，我们还提供了StaICC-Diag子基准，用于从多个方面诊断ICL，旨在实现更稳健的推断处理。