LLM2D
Home
Arxiv
返回列表
深度模型融合:神经网络可解释性的姐妹篇——一个综述
Deep Model Merging: The Sister of Neural Network Interpretability -- A Survey
作者:
Arham Khan, Todd Nief, Nathaniel Hudson, Mansi Sakarvadia, Daniel Grzenda, Aswathy Ajith, Jordan Pettyjohn, Kyle Chard, Ian Foster
发布日期:
3/25/2025
arXiv ID:
oai:arXiv.org:2410.12927v2
摘要
arXiv:2410.12927v2 通知类型: 替换-交叉 摘要:我们通过损失景观几何学的视角来回顾模型合并文献,将模型合并和损失景观分析中的观测结果与调控神经网络训练及其内部表示现象相连。我们将这些领域文献中反复出现的观察结果提炼为损失景观几何的四大特征描述:模态凸性、确定性、定向性以及连通性。我们认为,从模型合并对学习表示结构的理解为模型可解释性和鲁棒性提供了新的见解,随后我们提出了这些领域交叉点的具有前景的新研究方向。
查看原文
下载 PDF