摘要
arXiv:2503.19564v1 通告类型: cross
摘要: 随着人工智能系统越来越多地在现实环境中运行,视觉、语言和音频等多种模态数据源的整合为实现可信智能提供了前所未有的机遇,同时也带来了关键挑战。在本文中,我们提出了一种新的框架,将联邦学习与可解释的多模态推理相结合,以确保在分散和动态设置中的可信性。我们的方法称为FedMM-X(联邦多模态解释性智能),利用跨模态一致性检查、客户端级解释性机制和动态信任校准,以应对数据异质性、模态失衡和分布外泛化的挑战。通过对涉及视觉语言任务的联邦多模态基准进行严格的评估,我们展示了在准确性和解释性方面的改进性能,同时减少了对抗性扰动和虚假相关性带来的脆弱性。此外,我们引入了一种新的信任分聚合方法,以量化动态客户端参与下的全局模型可靠性。我们的研究结果为在现实环境中开发稳健、可解释且社会负责的人工智能系统铺平了道路。