LLM2D

摘要

arXiv:2502.10450v1 交叉类型: cross 摘要：人工智能系统的功能已经取得了极大的进步，但这些系统仍然在故障模式、脆弱性和偏差方面存在困难。在本文中，我们研究了该领域的现状，并提出了关于挑战AI模型可信度的关切方面的有前途的见解和视角。特别是，本文探讨了与安全、隐私和偏差这三个方向相关的問題，这些问题损害了模型的可信度。在安全性方面，我们讨论了在大型语言模型的背景下实现安全性对齐，防止它们生成有毒或有害内容。在偏差方面，我们关注那些可能导致网络误导的虚假偏差。最后，在隐私方面，我们涵盖了深度神经网络中的成员推理攻击。本文中的讨论反映了我们的实验和观察结果。