LLM2D
你变了:检测黑盒大型语言模型的修改
You've Changed: Detecting Modification of Black-Box Large Language Models
作者: Alden Dima, James Foulds, Shimei Pan, Philip Feldman
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12335v1

摘要

arXiv:2504.12335v1 Announce Type: 横向 摘要:大型语言模型(LLMs)通常通过API提供作为服务,这使得开发者难以检测其行为的变化。我们提出了一种通过比较生成文本的语言和心理语言学特性分布来监控LLMs变化的方法。该方法使用统计测试来确定两组文本特征分布是否等价,从而使开发者能够识别LLM何时发生变化。我们使用五种OpenAI完成模型和Meta的Llama 3 70B聊天模型来证明该方法的有效性。我们的结果显示,简单的文本特征结合统计测试可以区分语言模型。我们还探讨了该方法在检测提示注入攻击方面的应用。我们的工作使频繁监控LLM的变化成为可能,并避免了计算成本高昂的基准评估。