摘要
诚实是将大型语言模型 (LLM) 与人类价值观相一致的基本原则,要求这些模型能够识别它们知道什么和不知道什么,并能够忠实地表达它们的知识。尽管前景光明,但目前的 LLM 仍然表现出明显的欺骗行为,例如自信地给出错误答案或无法表达它们所知道的。此外,关于 LLM 诚实性的研究也面临着挑战,包括诚实定义的差异、区分已知和未知知识的困难以及对相关研究缺乏全面理解。为了解决这些问题,我们对 LLM 的诚实性进行了调查,涵盖了其澄清、评估方法和改进策略。此外,我们为未来的研究提供了见解,旨在激发对这一重要领域的进一步探索。