摘要
arXiv:2504.13216v1 交叉类型:公告
摘要:我们介绍了KFinEval-Pilot,这是一个专门为评估韩语金融领域的大型语言模型(LLMs)而设计的标准测试套件。为了克服现有以英语为中心的标准的局限性,KFinEval-Pilot包含了超过1000个精心策划的问题,覆盖了三个关键领域:金融知识、法律推理和金融毒性。该基准测试是通过结合GPT-4生成的提示和专家验证的半自动化管道构建的,以确保领域相关性和事实准确性。我们评估了一系列具有代表性的LLMs,并观察到不同模型在性能上的显著差异,不同模型家族在任务准确性和输出安全性之间存在权衡。这些结果突显了在高风险金融应用中应用LLMs所面临的持续挑战,特别是在推理和安全性方面。基于实际的金融应用场景,并与韩国的监管和语言环境相匹配,KFinEval-Pilot作为开发更安全、更可靠的金融AI系统的早期诊断工具具有重要意义。