LLM2D

摘要

arXiv:2502.12552v1 安全类型：跨领域摘要：本文分析了大型语言模型（LLMs）在与18岁以下儿童互动中的安全性。尽管大型语言模型在儿童生活的各个方面，如教育和治疗中有着变革性的应用，但在理解和缓解特定于这一 demographic 的潜在内容危害方面仍然存在显著的差距。该研究承认了儿童的多样性和这种多样性往往被标准的安全评估所忽视，并提出了一种全面的方法来评估儿童专用的大型语言模型的安全性。我们列出了儿童在使用由大型语言模型驱动的应用时可能遇到的潜在风险。此外，我们根据儿童照护和心理学方面的文献，开发了儿童用户模型，以反映儿童不同的个性和兴趣。这些用户模型旨在填补文献中关于儿童安全的各个领域的现有空白。我们利用儿童用户模型评估了六种最先进的大型语言模型的安全性。我们的观察结果揭示了大型语言模型在某些对儿童有害而对成人无害的类别的安全性方面存在显著的差距。