LLM2D

摘要

arXiv:2504.08211v1 通知类型: cross 摘要: 在本文中，我们对三款著名的语言模型（LLM）——GPT-3.5、PaLM2 和 Llama2——进行了多视角比较叙事分析（CNA）。我们使用了相同的提示，并在特定任务上评估了它们的输出，确保了对各种 LLM 进行公平和无偏见的比较。我们的研究发现，面对相同的提示，这三个 LLM 产生的响应不同，表明它们在理解和分析给定任务的能力上存在显著差异。人类评估被用作黄金标准，根据四个视角来分析 LLM 性能的差异。