摘要
大型语言模型 (LLMs) 在零样本或少样本场景下,通过适当的提示在多模态内容理解和推理方面展现出令人印象深刻的能力。尽管已经开发出大量交互式系统来支持跨各种任务的 LLM 提示工程,但大多数系统主要集中在文本或视觉输入上,因此忽略了多模态输入中模态之间复杂的相互作用。这种疏忽阻碍了有效提示的开发,这些提示通过充分利用多种模态提供的丰富上下文来引导模型的多模态推理过程。在本文中,我们提出了 POEM,这是一个可视化分析系统,旨在促进有效的提示工程,以增强 LLM 的多模态推理性能。该系统使用户能够以不同的详细程度探索跨模态的交互模式,从而全面了解各种提示引发的多模态知识。通过演示示例和指导原则的多样化推荐,POEM 支持用户迭代地构建和改进提示,以更好地将模型知识与人类见解相结合并增强模型知识。我们通过两个案例研究和专家访谈验证了我们系统的有效性和效率。