摘要
arXiv:2410.13191v4 宣告类型: replace-cross
摘要:自动问答生成(QG)对于AI和自然语言处理(NLP)至关重要,特别是在智能辅导、对话系统和事实核实等方面。为专业考试生成多项选择题(MCQG),例如美国医学执照考试(USMLE),尤其具有挑战性,需要领域专业知识和复杂的多跳推理来生成高质量的问题。然而,当前的大规模语言模型(LLMs)如GPT-4在专业MCQG方面面临挑战,由于知识过时、虚构问题以及提示敏感性,导致生成的问题质量不佳且难度难以控制。为了解决这些挑战,我们提出了MCQG-SRefine,这是一个基于LLM自我完善(批判与修正)的框架,用于将医疗案例转换为高質量的美国医学执照考试风格的问题。通过结合专家驱动的提示工程与迭代的自我批判和自我修正反馈,MCQG-SRefine显著提高了资深专家对问题质量和难度的满意度。此外,我们还引入了一种基于LLM作为裁判的自动评估度量标准,以取代复杂且昂贵的专家评估过程,确保可靠且与专家一致的评估。