LLM2D

摘要

arXiv:2502.05085v1 交叉类型：跨领域摘要：有效的可靠评估对于推动经验机器学习至关重要。然而，通用模型的日益普及以及向越来越复杂、高级的任务的进步使得系统的评估更加具有挑战性。基准测试受到各种偏见、伪影或泄漏的困扰，而模型可能由于未充分探索的故障模式而表现不可靠。任意的处理和对这些所谓的“怪物”的不一致表述可能导致重复劳动、对结果的信任缺失和支持不足的推论。在这篇立场文件中，我们认为因果关系提供了系统解决这些挑战的理想框架。通过使方法中的因果假设显式化，我们可以忠实建模现象，提出具有解释力的可测试假设，并利用成熟的分析工具。为了使因果模型设计更加易用，我们识别了因果图中的一些有用的常见抽象拓扑（CATs），这些拓扑有助于深入了解大型语言模型的推理能力。通过一系列案例研究，我们展示了精确且实用的因果语言如何阐明方法的优点和局限性，并激发新的方法以实现系统的进展。