LLM2D

摘要

自动化科学发现有望加速各个科学领域的进步。然而，评估人工智能主体进行端到端科学推理的能力具有挑战性，因为进行现实世界的实验往往成本过高或不可行。在这项工作中，我们介绍了DISCOVERYWORLD，这是一个用于开发和测试主体执行完整新科学发现周期的能力的第一个虚拟环境。DISCOVERYWORLD包含各种不同的挑战，涵盖放射性同位素测年、火箭科学和蛋白质组学等不同主题，以鼓励发展通用的发现技能，而不是特定任务的解决方案。DISCOVERYWORLD本身是一个廉价的、模拟的、基于文本的环境（可选配二维视觉叠加）。它包含120个不同的挑战性任务，涵盖八个主题，每个主题都有三个难度级别和几个参数变化。每个任务都需要主体形成假设，设计和运行实验，分析结果并根据结论采取行动。DISCOVERYWORLD进一步提供了三个自动评估性能的指标，分别基于（a）任务完成情况，（b）采取的任务相关行动，以及（c）发现的解释性知识。我们发现，在先前发表的环境中表现良好的强大基线主体在大多数DISCOVERYWORLD任务中都难以应对，这表明DISCOVERYWORLD捕捉到了一些发现方面的新挑战，因此DISCOVERYWORLD可能有助于加速主体科学发现能力的近期发展和评估。代码可在以下网址获取：www.github.com/allenai/discoveryworld