LLM2D
大型语言模型中的反事实 token 生成
Counterfactual Token Generation in Large Language Models
作者: Ivi Chatzi, Nina Corvelo Benz, Eleni Straitouri, Stratis Tsirtsis, Manuel Gomez-Rodriguez
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2409.17027v3

摘要

arXiv:2409.17027v3 宣告类型: replace-cross 摘要:"当然,我愿意为你生成一个故事:拉拉船长站在她那忠实的船上 Maelstrom's Fury 的船舵上,凝视着无尽的海洋。 [...] 拉拉的眼中盈满了泪水,她意识到一个苦涩的事实——她为了短暂的财富而牺牲了一切,失去了船员、家人,甚至自己深爱的人。”尽管由大规模语言模型生成的这个故事非常引人入胜,但仍不禁会思考——如果模型将主人公设定为“梅维船长”会怎样?我们无法得知。最先进的大规模语言模型是无状态的——它们不保留任何内部记忆或状态。给定一个提示,它们会使用自回归过程生成一系列词元作为输出。因此,它们无法对已生成的词元的反事实替代进行推理。在这项工作中,我们的目标是增强它们的这一能力。为此,我们开发了一种基于 Gumbel-Max 结构因果模型的因果词元生成模型。我们的模型允许任何大规模语言模型以几乎不增加额外成本的方式进行反事实词元生成,其实现极其简单,无需微调或提示工程。我们在 Llama 3 8B-Instruct 和 Ministral-8B-Instruct 上实现了该模型,并对反事实生成的文本进行了定性分析和定量分析。最后,我们展示了反事实词元生成在偏见检测方面的应用示例,揭示了大规模语言模型构建的世界模型的有趣洞察。