LLM2D
自动假设验证与代理性序列证伪
Automated Hypothesis Validation with Agentic Sequential Falsifications
作者: Kexin Huang, Ying Jin, Ryan Li, Michael Y. Li, Emmanuel Cand\`es, Jure Leskovec
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09858v1

摘要

arXiv:2502.09858v1 假设类型: 横跨多个领域 摘要:假设在信息获取、决策制定和发现中起着核心作用。然而,许多实际中的假设都是抽象的高层陈述,直接验证它们非常困难。这种挑战在大型语言模型(LLMs)生成假设的情况下进一步加剧,LLMs容易产生幻觉,会生成大量的假设,使得人工验证变得不切实际。在这里,我们提出了一种名为Popper的代理框架,用于严格自动验证自由格式的假设。该框架受到卡尔·波普尔证伪原则的指导,使用LLM代理设计并执行针对假设可验证影响的证伪实验。一种新颖的顺序测试框架确保了严格的第一类错误控制,同时积极收集来自各种观察结果的证据,无论是现有数据还是新进行的操作。我们在生物学、经济学和社会学等领域演示了Popper。Popper提供了稳健的错误控制、高功效和可扩展性。此外,与人类科学家相比,Popper在验证复杂的生物学假设方面表现相当,但时间减少了十倍,提供了一种可扩展和严谨的假设验证解决方案。