摘要
arXiv:2502.12372v1 类型:交叉学科
摘要:监测事实不一致性对于确保数据到文本生成(D2T)的信任worthiness至关重要。虽然大规模语言模型(LLMs)在各种D2T任务中表现出色,但之前的扩展定律研究主要集中在通过幂律扩展来衡量LLM规模(即模型参数的数量)上的泛化误差。然而,还没有研究探讨LLM规模对D2T的事实不一致性的影响。在本文中,我们通过探索两种扩展定律:幂律和指数扩展,来研究如何随LLM规模扩展D2T的事实不一致性。为了严格评估和比较这些扩展定律,我们采用了一种统计验证框架,包括三个关键阶段:预测性能估计、拟合优度评估和比较分析。为了进行全面的经验研究,我们分析了五个D2T数据集中广泛使用的三种流行的LLM家族,使用四种最先进的一致度指标逆向衡量事实不一致性。基于详尽的经验结果并通过我们的框架验证,我们的发现表明,与广泛认为的幂律扩展相反,D2T的事实不一致性随着LLM规模遵循指数扩展。