摘要
arXiv:2505.06964v1 宣布类型: 新
摘要: 尽管大型语言模型(LLMs)在多种通用知识和推理任务中取得了显著的性能,但在化学和生物工程(CBE)这一科学领域中的实用性仍不清楚。因此,需要具有挑战性的评估基准来衡量LLMs在基于知识和推理的任务中的性能,而这样的基准目前是缺乏的。作为基础步骤,我们实证测量了LLMs在CBE中的推理能力。我们构建并分享了一个专家精心策划的数据集,包含5,920个示例,用于评估LLMs在离子液体(ILs)领域进行碳捕获的推理能力,这是一个减少全球变暖的新兴解决方案。该数据集在语言和领域特定知识的维度上呈现出不同的难度级别。在数据集上对三个参数少于10B的开源LLMs进行基准测试表明,尽管较小的通用LLMs对于ILs有一定的了解,但它们缺乏领域特定的推理能力。根据我们的研究结果,我们进一步讨论了利用LLMs进行ILs用于碳捕获研究的考虑因素。由于LLMs具有高碳足迹,为ILs研究优化它们可以在两个领域中互惠互利,并有助于实现到2050年实现雄心勃勃的碳中和目标。数据集链接: https://github.com/sougata-ub/llms_for_ionic_liquids