LLM2D

摘要

arXiv:2308.14536v2 宣告类型: 替换交叉摘要：人们长期以来希望有一个能够帮助处理现实生活情况的对话系统，而最近大型语言模型（LLMs）的进步正使这一理念变得越来越接近现实。尽管LLMs在性能上通常令人印象深刻，但在需要专家知识的实际场景中的有效性仍然不明确。人们认为LLMs在教育领域具有最大的潜力和价值，尤其是在开发基于人工智能（AI）的虚拟教师方面，这些虚拟教师能够促进语言学习。我们的重点是评估LLMs在教育领域的有效性，特别是涵盖语音学、音系学和二语习得的口语语言学习领域。我们引入了一个新的多项选择题数据集，以评估LLMs在上述场景中的有效性，包括口语语言知识的理解与应用。此外，我们研究了各种提示技术的影响，例如零样本和少数样本方法（在问题前添加问题-答案示例）、思维链（CoT，逐步思考）、领域内的示例和外部工具（Google、Wikipedia）。我们使用这些方法对流行的大规模语言模型（20种不同的模型）进行了大规模评估。与零样本基线相比，我们实现了显著的性能改进（GPT-3.5，49.1% -> 63.1%；LLaMA2-70B-Chat，42.2% -> 48.6%）。我们发现，不同大小的模型在语音学、音系学和二语习得概念的理解方面表现出色，但在解决实际问题的推理方面存在局限性。此外，我们还探讨了初步发现的对话通信。