LLM2D

摘要

arXiv:2502.09858v1 假设类型: 横跨多个领域摘要：假设在信息获取、决策制定和发现中起着核心作用。然而，许多实际中的假设都是抽象的高层陈述，直接验证它们非常困难。这种挑战在大型语言模型（LLMs）生成假设的情况下进一步加剧，LLMs容易产生幻觉，会生成大量的假设，使得人工验证变得不切实际。在这里，我们提出了一种名为Popper的代理框架，用于严格自动验证自由格式的假设。该框架受到卡尔·波普尔证伪原则的指导，使用LLM代理设计并执行针对假设可验证影响的证伪实验。一种新颖的顺序测试框架确保了严格的第一类错误控制，同时积极收集来自各种观察结果的证据，无论是现有数据还是新进行的操作。我们在生物学、经济学和社会学等领域演示了Popper。Popper提供了稳健的错误控制、高功效和可扩展性。此外，与人类科学家相比，Popper在验证复杂的生物学假设方面表现相当，但时间减少了十倍，提供了一种可扩展和严谨的假设验证解决方案。