LLM2D

摘要

尽管自然语言处理模型极大地影响着我们的生活，但人们越来越担心隐私侵犯。虽然联邦学习增强了隐私，但攻击者可以通过利用模型参数和梯度来恢复私有训练数据。因此，防止此类嵌入攻击仍然是一个开放的挑战。为了解决这个问题，我们提出了字节级子词嵌入 (SEB)，并使用深度神经网络将子词编码为字节序列，使输入文本恢复更加困难。重要的是，我们的方法只需要 $256$ 字节的词汇表，而保持相同输入长度的效率。因此，我们的解决方案通过在不牺牲效率或准确性的情况下保护隐私，优于传统方法。我们的实验表明，SEB 可以有效地防止基于嵌入的攻击从联邦学习中恢复原始句子。同时，我们验证了 SEB 在机器翻译、情感分析和语言建模中获得了与标准子词嵌入方法相当甚至更好的结果，并且时间和空间复杂度更低。