LLM2D
反蒸馏采样
Antidistillation Sampling
作者: Yash Savani, Asher Trockman, Zhili Feng, Avi Schwarzschild, Alexander Robey, Marc Finzi, J. Zico Kolter
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.13146v1

摘要

arXiv:2504.13146v1 宣告类型: 新 摘要: 前沿模型生成扩展推理轨迹时无意中产生了丰富的token序列,这些序列可以促进模型蒸馏。认识到这一漏洞,模型所有者可能会寻求一些采样策略,这些策略可以限制蒸馏的有效性,而不损害模型的性能。\emph{反蒸馏采样}提供了这种能力。通过战略性地修改模型的下一个token概率分布,反蒸馏采样污染了推理轨迹,使其在蒸馏方面的有效性显著降低,同时保持模型的实际用途。有关更多信息,请参见 https://antidistillation.com。