摘要
arXiv:2502.18791v2 宣告类型: replace-cross
摘要:LLM 研究的激增使得综合它们的研究成果变得颇具挑战。从文献中分析实验结果可以揭示研究间的重要的趋势,但手动数据提取的耗时性质限制了其应用。我们提出了一个半自动的文献分析方法,利用 LLM 加速数据提取过程。该方法自动识别相关的 arXiv 论文,提取实验结果及相关属性,并将其组织成一个结构化的数据集 LLMEvalDB。然后,我们进行了针对前沿 LLM 的自动化文献分析,相比手动方法,减少了超过 93% 的论文调查和数据提取工作量。我们通过验证 LLMEvalDB 来展示这一点:它可以重现最近手动分析 Chain-of-Thought (CoT) 推理的几个关键发现,还发现了超出这些发现的新见解,例如,在上下文中的示例对编程和跨模态任务有益,但在数学推理任务中,与零样本 CoT 相比,提供的增益有限。我们自动更新的数据集允许通过提取新的评价研究结果持续跟踪目标模型。通过 LLMEvalDB 和实证分析,我们提供了关于 LLM 的见解,同时促进了对其行为的持续文献分析。