LLM2D
大型语言模型能否可靠地模拟人类学习者的行为?面向开放式学习环境的模拟创作框架
Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments
作者: Amogh Mannekote, Adam Davies, Jina Kang, Kristy Elizabeth Boyer
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02110v1

摘要

模拟学习者的行为有助于对开放式交互式学习环境进行压力测试,并在部署之前对新的适应性进行原型设计。虽然最近的研究表明使用大型语言模型 (LLM) 模拟人类行为的潜力,但由于关键的局限性,此类方法尚未超越基本的概念验证阶段。首先,LLM 对微小的提示变化高度敏感,这让人怀疑它们在没有广泛的提示工程的情况下能否推广到新场景。此外,看似成功的结果往往不可靠,要么是因为领域专家无意中引导 LLM 产生预期结果,导致自我实现的预言;要么是因为 LLM 在其训练数据中遇到了高度相似的场景,这意味着模型可能不是在模拟行为,而是再现记忆的内容。为了应对这些挑战,我们提出了 Hyp-Mix,这是一种模拟创作框架,允许专家通过结合关于学习者行为的可测试假设来开发和评估模拟。在物理学习环境中测试这个框架,我们发现 GPT-4 Turbo 即使在底层学习者模型发生变化的情况下也保持了校准的行为,这提供了第一个证据,证明 LLM 可以用来模拟开放式交互式学习环境中的现实行为,这是 LLM 行为模拟有用的必要先决条件。