LLM2D

摘要

arXiv:2504.07992v1 类型: cross 摘要: 大型语言模型驱动的AI系统可能会表现出一种我们称为“神经自激励性循环”的推理失败模式，在这种模式中，某些权重较高的输入变得占主导地位，从而导致难以纠正的固有响应模式。本文探讨了这一现象的机制，这与模型坍塌和带有偏差的显着性加权不同。我们提出了一种基于衰减的纠正机制，该机制动态引入平衡调整，即使在“锁定”AI系统中也能恢复适应性推理。此外，我们还讨论了由于不当管理强化而产生的其他相关效应。最后，我们概述了这一缓解策略在提高实际决策任务中AI鲁棒性方面的潜在应用。