LLM2D

摘要

arXiv:2410.14251v2 发布类型: 替换摘要：后训练对于使大型语言模型（LLMs）遵循人类指令至关重要。然而，其有效性取决于高质量的指令数据，由于隐私问题、数据稀缺性和注释成本高昂，在实际中获取这些数据颇具挑战。为解决这一问题，借鉴近期使用LLMs模拟人类社会取得的成功，我们提出了一种名为MATRIX的多智能体模拟器，它可以自动生成多种多样的基于文本的场景，以在实际和可扩展的方式中捕捉到广泛的真实世界人类需求。利用这些生成的输出，我们引入了新的场景驱动指令生成器MATRIX-Gen，以实现可控且高度真实的数据合成。广泛的经验表明，我们的框架能够有效生成通用和特定领域的数据。在AlpacaEval 2和Arena-Hard基准测试中，经过MATRIX-Gen合成数据集（仅使用20K指令-响应对）后训练的Llama-3-8B-Base模型，在AlpacaEval 2和Arena-Hard基准测试上超过了Meta的经过超过1000万对指令-响应训练的Llama-3-8B-Instruct模型。