LLM2D

摘要

arXiv:2504.06138v2 宣告类型: replace-cross 摘要：基础模型和自主人工智能的快速进步正在通过使人类和分析系统的交互更加丰富和复杂来转变多媒体分析。然而，现有的视觉和多媒体分析概念模型未能充分捕捉这些强大AI范式引入的复杂性。为了解决这一差距，我们提出了一种专门设计用于基础模型时代的全面多媒体分析模型。该模型建立在视觉分析、多媒体分析、知识生成、分析任务定义、混合主动性指导以及循环学习的人机协作框架之上，从技术和概念两个方面强调基于视觉分析代理的人机协作。模型的核心在于专家用户和半自主分析过程之间无缝且明确可分的交互通道，确保用户意图与AI行为之间持续对齐。该模型解决了如情报分析、调查 journalism 和其他处理复杂高风险数据领域的实际挑战。通过详细的案例研究，我们展示了该模型如何促进对多媒体分析解决方案的深入理解和针对性改进。通过明确捕获专家用户如何与AI驱动的多媒体分析系统进行最优化交互和引导，我们的概念框架为系统设计、比较和未来研究指明了明确的方向。