LLM2D

摘要

arXiv:2502.09843v1 通告类型: 新文章摘要: 多模态人工智能是朝着利用人类-人工智能通信中多种模态的有效工具建设迈出的重要一步。构建能够与长文档互动的多模态文档导向人工智能系统仍然是一项挑战。我们的工作旨在填补直接利用文档中图文内容生成响应的研究空白。我们基于GPT-4o提出了一种交互式对话AI代理'MuDoC'，以生成包含交替文本和图表的文档导向响应。MuDoC的智能教科书界面促进了可信度的提升，并通过允许即时导航到文档中的源文本和图表来验证系统响应。我们还讨论了基于MuDoC响应的定性观察，以突出其优点和局限性。