摘要
回答终端用户安全问题具有挑战性。虽然像GPT、LLAMA和Gemini这样的大型语言模型(LLM)远非完美无缺,但它们在回答各种非安全领域的问题方面已显示出潜力。我们通过定性评估3个流行的LLM对900个系统收集的终端用户安全问题,研究了LLM在终端用户安全领域的性能。虽然LLM展示了对终端用户安全信息的广泛的通用“知识”,但在各个LLM中都存在错误和局限性的模式,包括陈旧和不准确的答案,以及间接或无响应的沟通方式,所有这些都会影响接收到的信息质量。基于这些模式,我们提出了改进模型的方向,并建议用户在寻求安全方面的帮助时与LLM互动的策略。