摘要
arXiv:2409.14037v1 公告类型: 交叉 摘要: 大型语言模型(LLMs)及其驱动的AI助手在专业用户和业余用户中的使用量呈指数级增长。在这项工作中,我们专注于评估当前LLMs作为科学传播者的可靠性。与现有基准不同,我们的方法强调评估这些模型在需要对答案性有细致理解和意识科学问答任务上的表现。我们引入了一个新颖的数据集,SCiPS-QA,包含嵌入在复杂科学概念中的742个是/否查询,以及一个评估LLMs在各种标准下正确性和一致性的基准套件。我们基准测试了来自OpenAI GPT家族的三种专有LLMs和来自Meta Llama-2、Llama-3和Mistral家族的13种开放访问LLMs。虽然大多数开放访问模型与GPT-4 Turbo相比表现显著不佳,但我们的实验确定Llama-3-70B是一个强劲的竞争者,在各种评估方面经常超过GPT-4 Turbo。我们还发现,即使是GPT模型在可靠验证LLM响应方面也表现出普遍的无能。此外,我们观察到一个令人担忧的趋势,即人类评估者被GPT-4 Turbo的错误响应所欺骗。