LLM2D

摘要

arXiv:2410.13237v2 通告类型: 替换-交叉摘要：语言混淆是一种现象，其中大语言模型（LLMs）生成既不是目标语言，也不是上下文合适的语言文本。这种现象在LLMs的文本生成中提出了一个关键挑战，通常表现为不可预测的行为。我们假设LLMs固有的这种脆弱性中存在语言规律性，并揭示了LLMs中语言混淆模式。我们引入了一个新颖的度量标准，即语言混淆熵，基于由语言类型学和词汇变体指导的语言分布，直接测量和量化这种混淆。与Marchisio等人（2024）提出的语言混淆基准进行全面比较，证实了我们度量标准的有效性，揭示了LLMs中的语言混淆模式。我们进一步将语言混淆与LLMs安全相关联，并发现多语言嵌入反转攻击中的模式。我们的分析表明，语言类型学提供了理论依据的解释，并提供了利用语言相似性作为先验来促进LLMs对齐和安全的宝贵见解。