LLM2D
大型语言模型容易混淆:一个定量度量、安全影响和类型学分析
Large Language Models are Easily Confused: A Quantitative Metric, Security Implications and Typological Analysis
作者: Yiyi Chen, Qiongxiu Li, Russa Biswas, Johannes Bjerva
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2410.13237v2

摘要

arXiv:2410.13237v2 通告类型: 替换-交叉 摘要:语言混淆是一种现象,其中大语言模型(LLMs)生成既不是目标语言,也不是上下文合适的语言文本。这种现象在LLMs的文本生成中提出了一个关键挑战,通常表现为不可预测的行为。我们假设LLMs固有的这种脆弱性中存在语言规律性,并揭示了LLMs中语言混淆模式。我们引入了一个新颖的度量标准,即语言混淆熵,基于由语言类型学和词汇变体指导的语言分布,直接测量和量化这种混淆。与Marchisio等人(2024)提出的语言混淆基准进行全面比较,证实了我们度量标准的有效性,揭示了LLMs中的语言混淆模式。我们进一步将语言混淆与LLMs安全相关联,并发现多语言嵌入反转攻击中的模式。我们的分析表明,语言类型学提供了理论依据的解释,并提供了利用语言相似性作为先验来促进LLMs对齐和安全的宝贵见解。