LLM2D
构建可信赖的多模态AI:关于视觉-语言任务中的公平性、透明度和伦理问题的综述
Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks
作者: Mohammad Saleha, Azadeh Tabatabaeib
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.13199v1

摘要

arXiv:2504.13199v1 交叉公告类型:交叉 摘要:目标:本文审查了多模态人工智能(AI)系统的可信性,特别关注视觉语言任务。文中针对这些系统中的公平性、透明性和伦理问题提出了关键挑战,并通过对比分析视觉问答(VQA)、图像字幕和视觉对话等主要任务,提供了相关研究。背景:多模态模型,特别是视觉语言模型,通过整合视觉和文本数据来增强人工智能的能力,模拟人类学习过程。尽管取得了显著进展,但这些模型的可信性仍然是一个关键问题,特别是在人工智能系统面临公平性、透明性和伦理问题的挑战日益增多的情况下。方法:本文回顾了从2017年至2024年间关于命名的核心视觉语言任务的研究工作,并采用对比方法,在可信性视角上分析这些任务,强调公平性、可解释性和伦理问题。该研究综合了近期文献的发现,以识别趋势、挑战和最先进的解决方案。结果:突显了几个关键发现。透明性:视觉语言任务的可解释性对于提高用户信任至关重要。诸如注意力图和基于梯度的方法等技术已经成功解决了这一问题。公平性:在VQA和视觉对话系统中减少偏见是确保不同人口群体具有公平结果的关键。伦理问题:在多语言模型中解决偏见和确保负责任的数据处理对于视觉语言系统的设计至关重要。结论:本文强调了在统一框架内整合公平性、透明性和伦理考虑对于开发视觉语言模型的重要性。