LLM2D

摘要

arXiv:2504.01849v1 宣告类型: 新摘要: 通用人工智能(AGI)承诺带来革命性的益处，同时也带来了显著的风险。我们发展了一种方法，以应对可能导致人类遭受重大损害的风险。我们识别了四种风险领域：滥用、不对齐、错误和结构风险。在这之中，我们将重点放在技术手段来应对滥用和不对齐问题。对于滥用，我们的策略旨在防止威胁行为者访问危险的能力，通过主动识别危险的能力，以及实施强大的安全措施、访问限制、监控和模型安全性缓解措施。为了应对不对齐问题，我们提出了两条防线。首先，模型层面的缓解措施，如增强的监督和稳健的训练，可以帮助构建一个对齐的模型。其次，系统层面的安全措施，如监控和访问控制，即使模型不对齐也能减轻损害。可解释性技术、不确定性估计以及更安全的设计模式可以增强这些缓解措施的有效性。最后，我们简要阐述了如何将这些要素结合起来为AGI系统生成安全性案例。