LLM2D
面向高等教育的开源双损失嵌入模型用于语义检索
An Open-Source Dual-Loss Embedding Model for Semantic Retrieval in Higher Education
作者: Ramteja Sajja, Yusuf Sermet, Ibrahim Demir
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.04916v1

摘要

arXiv:2505.04916v1 声明类型: cross 摘要: 近期人工智能的发展推动了智能教育工具的应用,然而,许多语义检索系统仍不适合学术内容的独特语言和结构特征。本研究提出了两种针对教育问答进行微调的开源嵌入模型,特别是在课程大纲的背景下。通过结合手动筛选和大型语言模型(LLM)辅助的生成,构建了一个包含3,197个句子配对的合成数据集,涵盖同义术语、改写问题以及隐含显性映射。评估了两种训练策略:(1)使用多重否定排名损失(MNRL)进行微调的基线模型,以及(2)结合MNRL与余弦相似度损失(CosineSimilarityLoss)的双损失模型,以提高语义排名和相似度校准。在28所大学的课程大纲上进行了评估,使用了一组固定的语言问题,分类为课程信息、教职工信息和教学助理信息。结果表明,两种微调模型均优于开放源代码的基线模型,包括all-MiniLM-L6-v2和multi-qa-MiniLM-L6-cos-v1,并且双损失模型在与高性能的专有嵌入模型(如OpenAI的text-embedding-3系列)进行比较时缩小了性能差距。本文贡献了可重用、领域对齐的嵌入模型,并提供了可复制的教育语义检索框架,支持下游应用如学术聊天机器人、检索增强生成(RAG)系统和学习管理系统(LMS)集成。