摘要
arXiv:2502.10450v1 交叉类型: cross
摘要:人工智能系统的功能已经取得了极大的进步,但这些系统仍然在故障模式、脆弱性和偏差方面存在困难。在本文中,我们研究了该领域的现状,并提出了关于挑战AI模型可信度的关切方面的有前途的见解和视角。特别是,本文探讨了与安全、隐私和偏差这三个方向相关的問題,这些问题损害了模型的可信度。在安全性方面,我们讨论了在大型语言模型的背景下实现安全性对齐,防止它们生成有毒或有害内容。在偏差方面,我们关注那些可能导致网络误导的虚假偏差。最后,在隐私方面,我们涵盖了深度神经网络中的成员推理攻击。本文中的讨论反映了我们的实验和观察结果。