LLM2D

摘要

arXiv:2405.18780v3 宣布类型: 替换摘要: 大型语言模型（LLMs）可能会产生有偏见的响应，从而造成表征危害。然而，传统的研究无法彻底评估不同人口群体（即反事实偏见）的LLM响应中的偏见，因为它们无法规模化处理大量输入，并且无法提供保证。因此，我们提出了第一个框架LLMCert-B，用于在提示分布上认证LLM的反事实偏见。证书包括在任何一组反事实提示（即在不同人口群体下不同的提示）下，无偏LLM响应的概率的高置信度边界。我们展示了通过将来自前缀分布的前缀应用到给定提示集，创建反事实提示分布的情况下，反事实偏见认证的示例。我们考虑的前缀分布包括随机token序列、手动脱 jailbreak的混合以及LLM嵌入空间中脱 jailbreak的扰动。我们为SOTA LLM生成了非平凡的证书，揭示了它们在由计算成本低廉的前缀分布生成的提示分布中面临的漏洞。