LLM2D
两种结构的故事:LLMs 捕获语言的分形复杂性吗?
A Tale of Two Structures: Do LLMs Capture the Fractal Complexity of Language?
作者: Ibrahim Alabdulmohsin, Andreas Steiner
发布日期: 2/24/2025
arXiv ID: oai:arXiv.org:2502.14924v1

摘要

arXiv:2502.14924v1 跨领域公告类型:交叉 摘要:语言在信息论复杂性(即每标记比特)中表现出分形结构,具有不同尺度下的自相似性和长程依赖性(LRD)。在本研究中,我们探讨大型语言模型(LLMs)是否能够复制这种分形特征,并确定可能使它们失效的条件,如温度设置和提示方法。此外,我们发现自然语言中观察到的分形参数处于较窄的范围内,而LLMs输出的分形参数变化范围广泛,表明分形参数可能有助于检测LLM生成文本中的非平凡部分。值得注意的是,这些发现以及本工作中报告的许多其他发现对于架构的选择具有鲁棒性;例如,Gemini 1.0 Pro、Mistral-7B和Gemma-2B。我们还发布了一个数据集,包括超过240,000篇文章,由各种不同的LLMs(包括预训练和指令调整)以不同的解码温度和提示方法生成,以及它们相应的人类生成文本。我们希望这项工作强调了分形性质、提示和统计模仿在LLMs中的复杂相互作用,为生成、评估和检测合成文本提供了见解。