摘要
arXiv:2308.14536v2 宣告类型: 替换交叉
摘要:人们长期以来希望有一个能够帮助处理现实生活情况的对话系统,而最近大型语言模型(LLMs)的进步正使这一理念变得越来越接近现实。尽管LLMs在性能上通常令人印象深刻,但在需要专家知识的实际场景中的有效性仍然不明确。人们认为LLMs在教育领域具有最大的潜力和价值,尤其是在开发基于人工智能(AI)的虚拟教师方面,这些虚拟教师能够促进语言学习。我们的重点是评估LLMs在教育领域的有效性,特别是涵盖语音学、音系学和二语习得的口语语言学习领域。我们引入了一个新的多项选择题数据集,以评估LLMs在上述场景中的有效性,包括口语语言知识的理解与应用。此外,我们研究了各种提示技术的影响,例如零样本和少数样本方法(在问题前添加问题-答案示例)、思维链(CoT,逐步思考)、领域内的示例和外部工具(Google、Wikipedia)。我们使用这些方法对流行的大规模语言模型(20种不同的模型)进行了大规模评估。与零样本基线相比,我们实现了显著的性能改进(GPT-3.5,49.1% -> 63.1%;LLaMA2-70B-Chat,42.2% -> 48.6%)。我们发现,不同大小的模型在语音学、音系学和二语习得概念的理解方面表现出色,但在解决实际问题的推理方面存在局限性。此外,我们还探讨了初步发现的对话通信。