LLM2D

摘要

尽管大型语言模型 (LLM) 在各个领域都取得了成功，但它们生成不真实、有偏见和有害回应的可能性构成了重大风险，尤其是在关键应用中。这突显了系统性检测和预防此类错误行为的迫切需要。虽然现有方法针对有害回应等特定问题，但这项工作引入了 LLMScan，这是一种基于因果分析的创新型 LLM 监控技术，提供了一种全面的解决方案。LLMScan 通过因果推理的视角系统地监控 LLM 的内部运作，其前提是 LLM 的“大脑”在出现错误行为时表现不同。通过分析 LLM 输入标记和 Transformer 层的因果贡献，LLMScan 有效地检测错误行为。在各种任务和模型上的大量实验揭示了正常行为和错误行为之间因果分布的明显区别，从而能够开发出用于各种错误行为检测任务的准确、轻量级检测器。