LLM2D

摘要

arXiv:2505.02581v2 通知类型: 替换摘要: 人工智能 (AI) 对齐问题关注确保包括AGI和ASI在内的AI系统按照人类价值观行动，这一问题带来了深刻的挑战。从狭义AI到AGI再到超人工智能的发展过程中，对控制和存在风险的担忧日益加剧。在此，我们研究是否可以将不可避免的AI不对齐作为一种临时策略，以促进竞争代理之间的动态生态系统，作为引导更多人类价值观一致趋势和降低风险的一种可行路径。我们探讨了不对齐可能如何作为一种平衡机制发挥作用，并应促进与最符合人类利益的代理合作，确保没有单一系统能够失控地占主导地位。我们贡献的主要前提是，完全的AI-人类对齐在图灵完备系统中是数学上不可能的，我们也在本文中提供了这一证明，这一特征随后被AGI和ASI系统继承。我们介绍了基于这种类型的扰动和干预分析的改变观点攻击，并研究代理如何通过合作和竞争来中和或抵制友好的或不友好的AI。我们表明开放模型更具多样性，并且大多数在专有模型中实施的护栏在一定程度上成功地引导和控制了代理的观点和情感变化，尽管我们认为这在神经符号方法中仍然表现出一些正面和负面的结果，即使是最浅层次的。