LLM2D

摘要

arXiv:2502.20099v2 通告类型: 替换-交叉摘要: 我们在预期可以让因果表示学习(CRL)方法起作用的一个简单现实系统上评估了CRL方法。该系统由一个专门为这种目的构建的受控光学实验组成，该实验满足CRL的核心假设，并且其中底层的因果因素(实验的输入)是已知的，提供了 ground truth。我们选择了代表不同CRL方法的方法，并发现它们都无法恢复底层的因果因素。为了理解评估算法的失败模式，我们对数据进行了消融分析，将真实的数据生成过程替换为一个简单的合成等价物。结果揭示了一个可复现性问题，尽管该合成消融的生成数据过程非常简单，大多数方法在该合成消融中就已经失败。此外，我们观察到，对于一些方法而言，常见的混合函数假设对其性能至关重要，但在真实数据中并不成立。我们的努力突显了理论上的最新进展与其实用应用所面临挑战之间的对比。我们希望这个基准测试作为简单而现实的合理性检查，进一步发展和验证方法论，缩小实际应用中的CRL方法之间的差距。我们将在 github.com/simonbing/CRLSanityCheck 公开所有代码和数据集。