LLM2D

摘要

arXiv:2502.12710v2 公告类型: replace-cross 摘要：大规模语言模型(LLMs)近年来获得了显著的 popularity。区分由人类撰写的文章和由 LLM 生成的文章几乎变得不可能。通过将信息嵌入到文本中，信息隐藏技术，如数字水印或隐写术，可以帮助实现这一点，形式上不太可能被察觉。然而，现有的技术，如基于语言的或基于格式的方法，会改变语义或不能应用于纯文本或未格式化的文本。在本文中，我们提出了一种名为 Innamark 的新型信息隐藏方法，可以在足够长的覆盖文本中隐藏任何字节编码序列。该方法使用 Kotlin 编程语言作为多平台库实现，并附带命令行工具和网页界面。通过使用视觉上相似的 Unicode 空白字符替换传统空白字符，我们提出的方法在不改变字符数量的情况下保留了覆盖文本的语义。此外，我们提出了一种秘密消息的特定结构，使压缩、加密、哈希和错误校正成为可配置的选项。我们对含有 1000000 篇维基百科文章的数据集进行了十种算法的实验基准比较。结果表明，我们提出的 Innamark 方法在各种应用中的稳健性以及其水印的不可感知性。我们讨论了该算法的嵌入容量和稳健性的限制，并探讨了未来工作中可以克服这些问题的方法。