LLM2D
抗蒸馏采样
Antidistillation Sampling
作者: Yash Savani, Asher Trockman, Zhili Feng, Avi Schwarzschild, Alexander Robey, Marc Finzi, J. Zico Kolter
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.13146v2

摘要

arXiv:2504.13146v2 宣告类型: 替换 摘要: 前沿模型生成扩展推理轨迹时,无意中生成了丰富的token序列,这些序列可以促进模型精简。认识到这一漏洞后,模型所有者可能会寻求采样策略,限制精简的有效性,而不牺牲模型性能。抗精简采样正是提供了这一能力。通过有策略地修改模型的下一个token概率分布,抗精简采样毒害了推理轨迹,使其在精简中变得显著无效,同时保留了模型的实际实用价值。更多信息,请参见 https://antidistillation.com。