LLM2D

从知识到推理：评估在化学和生物工程领域离子液体研究中的LLM性能

From Knowledge to Reasoning: Evaluating LLMs for Ionic Liquids Research in Chemical and Biological Engineering

作者: Gaurab Sarkar, Sougata Saha

发布日期: 5/13/2025

arXiv ID: oai:arXiv.org:2505.06964v1

摘要

arXiv:2505.06964v1 宣布类型: 新摘要: 尽管大型语言模型（LLMs）在多种通用知识和推理任务中取得了显著的性能，但在化学和生物工程（CBE）这一科学领域中的实用性仍不清楚。因此，需要具有挑战性的评估基准来衡量LLMs在基于知识和推理的任务中的性能，而这样的基准目前是缺乏的。作为基础步骤，我们实证测量了LLMs在CBE中的推理能力。我们构建并分享了一个专家精心策划的数据集，包含5,920个示例，用于评估LLMs在离子液体（ILs）领域进行碳捕获的推理能力，这是一个减少全球变暖的新兴解决方案。该数据集在语言和领域特定知识的维度上呈现出不同的难度级别。在数据集上对三个参数少于10B的开源LLMs进行基准测试表明，尽管较小的通用LLMs对于ILs有一定的了解，但它们缺乏领域特定的推理能力。根据我们的研究结果，我们进一步讨论了利用LLMs进行ILs用于碳捕获研究的考虑因素。由于LLMs具有高碳足迹，为ILs研究优化它们可以在两个领域中互惠互利，并有助于实现到2050年实现雄心勃勃的碳中和目标。数据集链接: https://github.com/sougata-ub/llms_for_ionic_liquids

查看原文下载 PDF