LLM2D

摘要

arXiv:2504.13216v1 交叉类型：公告摘要：我们介绍了KFinEval-Pilot，这是一个专门为评估韩语金融领域的大型语言模型（LLMs）而设计的标准测试套件。为了克服现有以英语为中心的标准的局限性，KFinEval-Pilot包含了超过1000个精心策划的问题，覆盖了三个关键领域：金融知识、法律推理和金融毒性。该基准测试是通过结合GPT-4生成的提示和专家验证的半自动化管道构建的，以确保领域相关性和事实准确性。我们评估了一系列具有代表性的LLMs，并观察到不同模型在性能上的显著差异，不同模型家族在任务准确性和输出安全性之间存在权衡。这些结果突显了在高风险金融应用中应用LLMs所面临的持续挑战，特别是在推理和安全性方面。基于实际的金融应用场景，并与韩国的监管和语言环境相匹配，KFinEval-Pilot作为开发更安全、更可靠的金融AI系统的早期诊断工具具有重要意义。