LLM2D

摘要

模拟学习者的行为有助于对开放式交互式学习环境进行压力测试，并在部署之前对新的适应性进行原型设计。虽然最近的研究表明使用大型语言模型 (LLM) 模拟人类行为的潜力，但由于关键的局限性，此类方法尚未超越基本的概念验证阶段。首先，LLM 对微小的提示变化高度敏感，这让人怀疑它们在没有广泛的提示工程的情况下能否推广到新场景。此外，看似成功的结果往往不可靠，要么是因为领域专家无意中引导 LLM 产生预期结果，导致自我实现的预言；要么是因为 LLM 在其训练数据中遇到了高度相似的场景，这意味着模型可能不是在模拟行为，而是再现记忆的内容。为了应对这些挑战，我们提出了 Hyp-Mix，这是一种模拟创作框架，允许专家通过结合关于学习者行为的可测试假设来开发和评估模拟。在物理学习环境中测试这个框架，我们发现 GPT-4 Turbo 即使在底层学习者模型发生变化的情况下也保持了校准的行为，这提供了第一个证据，证明 LLM 可以用来模拟开放式交互式学习环境中的现实行为，这是 LLM 行为模拟有用的必要先决条件。