LLM2D

摘要

arXiv:2504.06138v1 声明类型：交叉摘要：基础模型和自主人工智能的迅速进步正在通过促进人类与分析系统之间更丰富、更复杂的互动来转变多媒体分析。然而，现有的关于视觉和多媒体分析的概念模型并未充分捕捉这些强大AI范式的复杂性。为了解决这一差距，我们提出了一种专门设计用于基础模型时代的全面多媒体分析模型。建立在视觉分析、多媒体分析、知识生成、分析任务定义、混合主动引导以及循环强化学习等现有框架的基础上，我们的模型从技术和概念上都强调了基于视觉分析代理的人机团队协作。模型的核心是专家用户与半自动分析过程之间无缝且明确分离的交互渠道，确保用户意图与AI行为之间的连续对齐。该模型解决了情报分析、调查新闻报道以及涉及复杂、高风险数据的其他领域的实际挑战。通过详细的案例研究，我们展示了该模型如何促进对多媒体分析解决方案的更深层次理解和针对性改进。通过明确捕获专家用户如何与AI驱动的多媒体分析系统进行最优交互和引导，我们的概念框架为系统的设计、比较和未来研究提供了清晰的方向。