LLM2D
构建可信赖的多模态AI:关于视觉-语言任务中公平性、透明度和伦理性的综述
Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks
作者: Mohammad Saleh, Azadeh Tabatabaei
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2504.13199v3

摘要

arXiv:2504.13199v3 标题类型:替换交叉 摘要:目标:本综述探讨了多模态人工智能(AI)系统可信度的问题,特别关注于视觉-语言任务。它针对这些系统中与公平性、透明度和伦理问题相关的关键挑战提出了分析,并对关键任务,如视觉问答(VQA)、图像描述和视觉对话进行了比较分析。背景:多模态模型,尤其是视觉-语言模型,通过整合视觉和文本数据来增强人工智能(AI)的能力,模仿人类的学习过程。尽管取得了显著的进步,但这些模型的可信度仍然是一个至关重要的问题,尤其是在AI系统越来越多地面临公平性、透明性和伦理问题时。方法:本综述从2017年到2024年对命名的核心视觉-语言任务的研究进行了审查。它采用了一种比较的方法,通过可信度的视角来分析这些任务,强调公平性、可解释性和伦理问题。本研究综合了最近文献的研究成果,以识别趋势、挑战和最先进的解决方案。结果:突显了几个关键发现。透明度:视觉语言任务的可解释性对于用户信任至关重要。诸如注意力图和梯度方法等技术已经成功解决这一问题。公平性:在VQA和视觉对话系统中减轻偏差是确保结果在不同人口群体中保持客观性的必要条件。伦理问题:解决多语言模型中的偏差并确保伦理的数据处理对于负责任地部署视觉语言系统至关重要。结论:本研究强调了在统一框架中集成公平性、透明性和伦理考量对于开发视觉语言模型的重要性。