LLM2D

摘要

arXiv:2504.20980v1 通告类型: 新摘要：人们对人工智能的信任受到破坏，因为目前没有一门科学能够预测或向公众解释，在特定情况下（例如LLM的输出，例如ChatGPT）何时可能会突然变得错误、误导、无关或危险。由于已经有人将死亡和创伤归咎于LLM，这种不确定性甚至促使人们更加礼貌地对待他们的“宠物”LLM，以“劝阻”它（或其未来的通用人工智能后代）突然对其不利。在这里，我们通过从基本原理出发，推导出一个精确公式，来解决LLM最基本层次上的“妖艳双面人”临界点何时出现的问题。该公式仅需初中数学水平，表明问题是由于AI的关注力分散到极致突然断裂所致。这个精确公式提供了通过改变提示和AI训练来推迟或防止临界点的方法的定量预测。特定泛化将为决策者和公众提供一个坚实的基础，以讨论AI更广泛的应用和风险，例如作为个人咨询师、医疗顾问或冲突情况下使用武力的决策者。它还满足了诸如“我是否应该对我的LLM礼貌？”这类问题清晰透明的解答需求。