LLM2D
KFinEval-试点:韩语金融语言理解的综合基准套件
KFinEval-Pilot: A Comprehensive Benchmark Suite for Korean Financial Language Understanding
作者: Bokwang Hwang, Seonkyu Lim, Taewoong Kim, Yongjae Geun, Sunghyun Bang, Sohyun Park, Jihyun Park, Myeonggyu Lee, Jinwoo Lee, Yerin Kim, Jinsun Yoo, Jingyeong Hong, Jina Park, Yongchan Kim, Suhyun Kim, Younggyun Hahm, Yiseul Lee, Yejee Kang, Chanhyuk Yoon, Chansu Lee, Heeyewon Jeong, Jiyeon Lee, Seonhye Gu, Hyebin Kang, Yousang Cho, Hangyeol Yoo, KyungTae Lim
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.13216v1

摘要

arXiv:2504.13216v1 交叉类型:公告 摘要:我们介绍了KFinEval-Pilot,这是一个专门为评估韩语金融领域的大型语言模型(LLMs)而设计的标准测试套件。为了克服现有以英语为中心的标准的局限性,KFinEval-Pilot包含了超过1000个精心策划的问题,覆盖了三个关键领域:金融知识、法律推理和金融毒性。该基准测试是通过结合GPT-4生成的提示和专家验证的半自动化管道构建的,以确保领域相关性和事实准确性。我们评估了一系列具有代表性的LLMs,并观察到不同模型在性能上的显著差异,不同模型家族在任务准确性和输出安全性之间存在权衡。这些结果突显了在高风险金融应用中应用LLMs所面临的持续挑战,特别是在推理和安全性方面。基于实际的金融应用场景,并与韩国的监管和语言环境相匹配,KFinEval-Pilot作为开发更安全、更可靠的金融AI系统的早期诊断工具具有重要意义。