LLM2D

摘要

arXiv:2505.04916v1 声明类型: cross 摘要: 近期人工智能的发展推动了智能教育工具的应用，然而，许多语义检索系统仍不适合学术内容的独特语言和结构特征。本研究提出了两种针对教育问答进行微调的开源嵌入模型，特别是在课程大纲的背景下。通过结合手动筛选和大型语言模型（LLM）辅助的生成，构建了一个包含3,197个句子配对的合成数据集，涵盖同义术语、改写问题以及隐含显性映射。评估了两种训练策略：（1）使用多重否定排名损失（MNRL）进行微调的基线模型，以及（2）结合MNRL与余弦相似度损失（CosineSimilarityLoss）的双损失模型，以提高语义排名和相似度校准。在28所大学的课程大纲上进行了评估，使用了一组固定的语言问题，分类为课程信息、教职工信息和教学助理信息。结果表明，两种微调模型均优于开放源代码的基线模型，包括all-MiniLM-L6-v2和multi-qa-MiniLM-L6-cos-v1，并且双损失模型在与高性能的专有嵌入模型（如OpenAI的text-embedding-3系列）进行比较时缩小了性能差距。本文贡献了可重用、领域对齐的嵌入模型，并提供了可复制的教育语义检索框架，支持下游应用如学术聊天机器人、检索增强生成（RAG）系统和学习管理系统（LMS）集成。