LLM2D
利用大型语言模型和检索增强生成提升小模型在低数据场景下的能力
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation
作者: Bhargav Shandilya, Alexis Palmer
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00387v1

摘要

当前语言建模技术的數據和計算需求給低資源語言的處理和分析帶來了挑戰。聲明式語言知識有可能通過以語言特定規則的形式為模型提供有用的歸納偏差來部分彌合這種數據稀缺差距。本文提出了一個由大型語言模型 (LLM) 支持的檢索增強生成 (RAG) 框架,用於糾正較小模型在形態學詞義標註的語言任務中的輸出。我們利用語言信息來彌補數據和可訓練參數的不足,同時允許從通過 LLM 解釋和提煉的書面描述性語法中獲取輸入。 結果表明,通過以下組合可以實現性能和效率的顯著飛躍:a) 語法形式的語言輸入,b) LLM 的解釋能力,以及 c) 更小的標記分類網絡的可訓練性。我們證明,一個緊湊的、由 RAG 支持的模型在數據稀缺環境中非常有效,在該任務和我們的目標語言中實現了新的最先進水平。我們的研究還為文獻語言學家提供了一個更可靠、更易用的形態學詞義標註工具,為每個輸出提供合理的解釋和置信度得分。