LLM2D

摘要

arXiv:2504.06669v1 安全类型: 横跨领域摘要：随着自然语言处理（NLP）模型被越来越多的最终用户使用，NLP安全（NLPSec）领域的重要性日益增加：评估模型对抗恶意攻击的脆弱性，并开发全面的对抗措施。尽管NLP与网络信息安全交叉领域的研究有可能为所有人提供更安全的NLP，但不经意的疏忽可能会导致实际危害（例如，隐私泄露或恶意模型的扩散）。然而，在这一新兴领域中，NLP的研究伦理尚未面临许多与网络安全相关的长期困境，直到现在。因此，我们审查了NLPSec中的当代研究工作，并探讨了它们对网络安全伦理规范的参与情况。我们识别出了文献中的趋势，最终发现关于最小化危害和负责任披露等方面存在令人不安的空白。为了缓解这些关切，我们提供了具体的建议，以帮助NLP研究人员在这种空间中更加伦理地行进，将传统的网络安全与NLP伦理相结合，我们将其称为“白帽NLP”。本工作的目标是帮助培养一种意图化的伦理研究文化，适用于NLP安全领域的工作中。