LLM2D
HypoBench:朝着假设生成的系统性和原则性基准测试迈进
HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation
作者: Haokun Liu, Sicong Huang, Jingyu Hu, Yangqiaoyu Zhou, Chenhao Tan
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11524v1

摘要

arXiv:2504.11524v1 假设生成类型: 新 摘要: 大语言模型(LLMs)在假设生成方面的兴趣日益增长。然而,一些基本问题仍然存在:什么是好的假设,我们如何系统地评估假设生成方法?为了解决这一问题,我们引入了HypoBench,这是一个新颖的基准测试,旨在从多个方面评估LLMs和假设生成方法,包括实用性、普适性和假设发现率。HypoBench包括7个真实世界任务和5个合成任务,共有194个不同的数据集。我们评估了四种最先进的LLMs与六种现有的假设生成方法的组合。总体而言,我们的结果显示现有的方法能够发现数据中的有效和新颖的模式。然而,来自合成数据集的结果表明,当前的假设生成方法仍有很大的改进空间,因为它们并没有完全揭露所有相关或有意义的模式。特别是在合成环境中,随着任务难度的增加,性能显著下降,最佳模型和方法仅恢复了38.8%的真实假设。这些发现突显了假设生成中的挑战,并展示了HypoBench作为改进旨在辅助科学发现的AI系统的宝贵资源的作用。