LLM2D

摘要

回答终端用户安全问题具有挑战性。虽然像GPT、LLAMA和Gemini这样的大型语言模型（LLM）远非完美无缺，但它们在回答各种非安全领域的问题方面已显示出潜力。我们通过定性评估3个流行的LLM对900个系统收集的终端用户安全问题，研究了LLM在终端用户安全领域的性能。虽然LLM展示了对终端用户安全信息的广泛的通用“知识”，但在各个LLM中都存在错误和局限性的模式，包括陈旧和不准确的答案，以及间接或无响应的沟通方式，所有这些都会影响接收到的信息质量。基于这些模式，我们提出了改进模型的方向，并建议用户在寻求安全方面的帮助时与LLM互动的策略。