LLM2D

摘要

本研究提出一个全面的基准，旨在评估大型语言模型（LLMs）在理解和处理文化知识方面的性能，并以客家文化为案例研究。利用布鲁姆分类法，该研究构建了一个多维度框架，系统地评估了LLMs在六个认知领域的表现：记忆、理解、应用、分析、评估和创造。该基准超越了传统的单维度评估，通过更深入地分析LLMs处理文化特定内容的能力，涵盖从基本的事实回忆到更高阶的认知任务，例如创造性综合。此外，该研究还整合了检索增强生成（RAG）技术，以解决LLMs中少数民族文化知识表示的挑战，展示了RAG如何通过动态地整合相关外部信息来增强模型的性能。结果突出了RAG在提高所有认知领域准确性方面的有效性，特别是在需要精确检索和应用文化知识的任务中。然而，研究结果也揭示了RAG在创造性任务中的局限性，强调了进一步优化的必要性。该基准提供了一个强大的工具，用于在文化多元的背景下评估和比较LLMs，为人工智能驱动的文化知识保存和传播的未来研究和发展提供宝贵的见解。