LLM2D

摘要

arXiv:2502.13034v1 声明类型: cross 摘要：使用自然语言讨论视觉内容的能力是人类智能的核心，并且也是任何人工智能系统的关键特征之一。尽管已经有多项研究集中在生成单张图片的文字描述上，但在多张图片的视觉内容到文本转换的全面分析和推动方面，关注相对较少。在这篇立场论文中，我们主张任何涉及具有时间顺序的多张图片或帧的任务都是一个更为广泛、更通用问题的实例，该问题涉及视觉内容与相应文本之间的复杂关系理解。我们全面分析了五个此类问题的实例，并论及它们共同面临的挑战，并在建模和评估方法上具有相似性。基于这些多张图片到文本生成各方面的见解和阶段，我们强调了几点开放式问题，并建议未来的研究方向。我们认为，这些方向可以促进对该领域复杂现象的理解以及更好模型的发展。