LLM2D

摘要

arXiv:2504.11524v1 假设生成类型: 新摘要: 大语言模型（LLMs）在假设生成方面的兴趣日益增长。然而，一些基本问题仍然存在：什么是好的假设，我们如何系统地评估假设生成方法？为了解决这一问题，我们引入了HypoBench，这是一个新颖的基准测试，旨在从多个方面评估LLMs和假设生成方法，包括实用性、普适性和假设发现率。HypoBench包括7个真实世界任务和5个合成任务，共有194个不同的数据集。我们评估了四种最先进的LLMs与六种现有的假设生成方法的组合。总体而言，我们的结果显示现有的方法能够发现数据中的有效和新颖的模式。然而，来自合成数据集的结果表明，当前的假设生成方法仍有很大的改进空间，因为它们并没有完全揭露所有相关或有意义的模式。特别是在合成环境中，随着任务难度的增加，性能显著下降，最佳模型和方法仅恢复了38.8%的真实假设。这些发现突显了假设生成中的挑战，并展示了HypoBench作为改进旨在辅助科学发现的AI系统的宝贵资源的作用。