LLM2D

摘要

arXiv:2410.13191v4 宣告类型: replace-cross 摘要：自动问答生成（QG）对于AI和自然语言处理（NLP）至关重要，特别是在智能辅导、对话系统和事实核实等方面。为专业考试生成多项选择题（MCQG），例如美国医学执照考试（USMLE），尤其具有挑战性，需要领域专业知识和复杂的多跳推理来生成高质量的问题。然而，当前的大规模语言模型（LLMs）如GPT-4在专业MCQG方面面临挑战，由于知识过时、虚构问题以及提示敏感性，导致生成的问题质量不佳且难度难以控制。为了解决这些挑战，我们提出了MCQG-SRefine，这是一个基于LLM自我完善（批判与修正）的框架，用于将医疗案例转换为高質量的美国医学执照考试风格的问题。通过结合专家驱动的提示工程与迭代的自我批判和自我修正反馈，MCQG-SRefine显著提高了资深专家对问题质量和难度的满意度。此外，我们还引入了一种基于LLM作为裁判的自动评估度量标准，以取代复杂且昂贵的专家评估过程，确保可靠且与专家一致的评估。