摘要
预测未来事件是明智决策的重要输入。机器学习 (ML) 系统有潜力大规模提供预测,但目前还没有框架来评估 ML 系统在标准化预测问题集上的准确性。为了填补这一空白,我们引入了 ForecastBench:一个动态基准,它评估 ML 系统在自动生成和定期更新的 1,000 个预测问题集上的准确性。为了避免任何可能的数据泄露,ForecastBench 仅包含关于未来事件的问题,这些事件在提交时没有已知的答案。我们通过收集来自专家(人类)预测者、公众和 LLM 在基准的随机子集(N = 200)上的预测来量化当前 ML 系统的能力。虽然 LLM 在许多基准测试中取得了超越人类的表现,但它们在这里表现不佳:专家预测者优于表现最好的 LLM(p 值 <= 0.01)。我们在 www.forecastbench.org 的公开排行榜上展示了系统和人类得分。