摘要
arXiv:2502.05085v1 交叉类型:跨领域
摘要:有效的可靠评估对于推动经验机器学习至关重要。然而,通用模型的日益普及以及向越来越复杂、高级的任务的进步使得系统的评估更加具有挑战性。基准测试受到各种偏见、伪影或泄漏的困扰,而模型可能由于未充分探索的故障模式而表现不可靠。任意的处理和对这些所谓的“怪物”的不一致表述可能导致重复劳动、对结果的信任缺失和支持不足的推论。在这篇立场文件中,我们认为因果关系提供了系统解决这些挑战的理想框架。通过使方法中的因果假设显式化,我们可以忠实建模现象,提出具有解释力的可测试假设,并利用成熟的分析工具。为了使因果模型设计更加易用,我们识别了因果图中的一些有用的常见抽象拓扑(CATs),这些拓扑有助于深入了解大型语言模型的推理能力。通过一系列案例研究,我们展示了精确且实用的因果语言如何阐明方法的优点和局限性,并激发新的方法以实现系统的进展。