LLM2D
AI行为中的杰克逊-海德 tipping 点
Jekyll-and-Hyde Tipping Point in an AI's Behavior
作者: Neil F. Johnson, Frank Yingjie Huo
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20980v1

摘要

arXiv:2504.20980v1 通告类型: 新 摘要:人们对人工智能的信任受到破坏,因为目前没有一门科学能够预测或向公众解释,在特定情况下(例如LLM的输出,例如ChatGPT)何时可能会突然变得错误、误导、无关或危险。由于已经有人将死亡和创伤归咎于LLM,这种不确定性甚至促使人们更加礼貌地对待他们的“宠物”LLM,以“劝阻”它(或其未来的通用人工智能后代)突然对其不利。在这里,我们通过从基本原理出发,推导出一个精确公式,来解决LLM最基本层次上的“妖艳双面人”临界点何时出现的问题。该公式仅需初中数学水平,表明问题是由于AI的关注力分散到极致突然断裂所致。这个精确公式提供了通过改变提示和AI训练来推迟或防止临界点的方法的定量预测。特定泛化将为决策者和公众提供一个坚实的基础,以讨论AI更广泛的应用和风险,例如作为个人咨询师、医疗顾问或冲突情况下使用武力的决策者。它还满足了诸如“我是否应该对我的LLM礼貌?”这类问题清晰透明的解答需求。