LLM2D

摘要

arXiv:2403.16527v2 更新类型: 重写摘要：自主系统即将无处不在，涵盖制造、农业、医疗保健、娱乐和其他行业。这些系统中的大多数都是使用用于决策、规划和控制的模块化子组件开发的，这些子组件可能是手动工程化的或基于学习的。尽管这些方法在它们被专门设计的场景中表现良好，但在测试时肯定会遇到的离分布场景中，它们的表现可能会特别差劣。随着在多个任务上进行训练并在庞大数据库的基础上生成令人印象深刻的训练模型的兴起，研究人员相信这些模型可以提供现有的规划者所缺失的“常识”推理，从而弥合算法开发与部署之间的差距。尽管研究人员展示了将训练模型部署到决策任务的成功前景，但这些模型已知会产生幻觉，并生成听起来合理但实际上很糟糕的决策。我们认为需要后退一步，同时设计系统来量化模型决策的信心度，并在可能的情况下检测其是否在产生幻觉。在本文中，我们讨论了训练模型在决策任务中的当前应用场景，提供了幻觉的通用定义并附有示例，讨论了决策问题中幻觉检测和减轻的现有方法，提出了指导原则，并探讨了这个令人兴奋领域进一步研究的领域。