LLM2D

摘要

预测未来事件是明智决策的重要输入。机器学习 (ML) 系统有潜力大规模提供预测，但目前还没有框架来评估 ML 系统在标准化预测问题集上的准确性。为了填补这一空白，我们引入了 ForecastBench：一个动态基准，它评估 ML 系统在自动生成和定期更新的 1,000 个预测问题集上的准确性。为了避免任何可能的数据泄露，ForecastBench 仅包含关于未来事件的问题，这些事件在提交时没有已知的答案。我们通过收集来自专家（人类）预测者、公众和 LLM 在基准的随机子集（N = 200）上的预测来量化当前 ML 系统的能力。虽然 LLM 在许多基准测试中取得了超越人类的表现，但它们在这里表现不佳：专家预测者优于表现最好的 LLM（p 值 <= 0.01）。我们在 www.forecastbench.org 的公开排行榜上展示了系统和人类得分。