LLM2D

摘要

诚实是将大型语言模型 (LLM) 与人类价值观相一致的基本原则，要求这些模型能够识别它们知道什么和不知道什么，并能够忠实地表达它们的知识。尽管前景光明，但目前的 LLM 仍然表现出明显的欺骗行为，例如自信地给出错误答案或无法表达它们所知道的。此外，关于 LLM 诚实性的研究也面临着挑战，包括诚实定义的差异、区分已知和未知知识的困难以及对相关研究缺乏全面理解。为了解决这些问题，我们对 LLM 的诚实性进行了调查，涵盖了其澄清、评估方法和改进策略。此外，我们为未来的研究提供了见解，旨在激发对这一重要领域的进一步探索。