LLM2D
大型语言模型中的“神经嚎叫”:一种自我强化偏差现象及动态衰减解决方案
'Neural howlround' in large language models: a self-reinforcing bias phenomenon, and a dynamic attenuation solution
作者: Seth Drake
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.07992v1

摘要

arXiv:2504.07992v1 类型: cross 摘要: 大型语言模型驱动的AI系统可能会表现出一种我们称为“神经自激励性循环”的推理失败模式,在这种模式中,某些权重较高的输入变得占主导地位,从而导致难以纠正的固有响应模式。本文探讨了这一现象的机制,这与模型坍塌和带有偏差的显着性加权不同。我们提出了一种基于衰减的纠正机制,该机制动态引入平衡调整,即使在“锁定”AI系统中也能恢复适应性推理。此外,我们还讨论了由于不当管理强化而产生的其他相关效应。最后,我们概述了这一缓解策略在提高实际决策任务中AI鲁棒性方面的潜在应用。