摘要
arXiv:2504.01771v1 宣告类型: 新
摘要: 生成型AI模型提供了强大的功能,但往往缺乏透明度,使得解释其输出变得困难。这在涉及艺术或版权内容的情况下尤为重要。本文介绍了一种基于搜索的方法,通过分析训练数据对模型输出的影响来提高模型的可解释性。我们的方法通过关注模型的输出而不是其内部状态,提供了观测可解释性。我们在生成内容时考虑了原始数据和潜在空间嵌入,以寻找数据项的影响。我们通过局部重新训练模型和展示方法发现训练数据中影响子集的能力来评估该方法。本文为未来扩展奠定了基础,包括与领域专家进行基于用户的评估,预计将进一步提高观测可解释性。