LLM2D
FinSage:一个面向金融文件问答的多方面RAG系统
FinSage: A Multi-aspect RAG System for Financial Filings Question Answering
作者: Xinyu Wang, Jijun Chi, Zhenghan Tai, Tung Sum Thomas Kwok, Muzhi Li, Zhuhong Li, Hailin He, Yuchen Hua, Peng Lu, Suyuchen Wang, Yihong Wu, Jerry Huang, Ling Zhou
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14493v1

摘要

arXiv:2504.14493v1 宣告类型: cross 摘要:在实际应用中利用大型语言模型通常需要使用领域特定的数据和工具,以遵循使用时必须遵守的复杂法规。在金融领域中,现代企业越来越多地依靠检索增强生成(RAG)系统来解决金融文档工作流中复杂的合规要求。然而,现有的解决方案难以应对数据的固有异质性(例如,文本、表格、图表)和监管标准的不断变化,导致关键信息提取的准确率受到严重影响。为此,我们提出了FinSage框架,它是一种专门用于多模态金融文档合规分析的多方面RAG框架。FinSage引入了三个创新组件:(1)一个多模态预处理管道,统一了多种数据格式并生成切片级的元数据摘要,(2)一个增强查询扩展(HyDE)和元数据感知语义搜索的多路径稀疏密集检索系统,以及(3)一个通过直接偏好优化(DPO)微调的领域专化重排序模块,以优先处理合规关键内容。广泛的实验表明,在75个由金融基准问答数据集中的专家整理的问题上,FinSage实现了92.51%的召回率,比最佳基线方法高出24.06%的准确率。此外,FinSage已经在在线会议中成功部署为金融问答代理,已经为超过1,200人服务。