LLM2D
大型语言模型的诚实性研究
A Survey on the Honesty of Large Language Models
作者: Siheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18786v1

摘要

诚实是将大型语言模型 (LLM) 与人类价值观相一致的基本原则,要求这些模型能够识别它们知道什么和不知道什么,并能够忠实地表达它们的知识。尽管前景光明,但目前的 LLM 仍然表现出明显的欺骗行为,例如自信地给出错误答案或无法表达它们所知道的。此外,关于 LLM 诚实性的研究也面临着挑战,包括诚实定义的差异、区分已知和未知知识的困难以及对相关研究缺乏全面理解。为了解决这些问题,我们对 LLM 的诚实性进行了调查,涵盖了其澄清、评估方法和改进策略。此外,我们为未来的研究提供了见解,旨在激发对这一重要领域的进一步探索。