摘要
arXiv:2504.10179v1 公告类型: 新
摘要: 多模态大型语言模型(MLLMs)有望通过整合诸如文本、图像和代码等多种模态来改变机器生成类人类响应的方式。然而,充分发挥其潜力则依赖于最佳的提示工程。我们对13个开源MLLM在24项任务中的提示工程方法进行了全面的实验评估,这些任务涵盖了推理与组合性、多模态理解和对齐、复杂代码生成与执行,以及知识检索与融合。我们根据参数数量将模型划分为小型(<4B)、中型(4B-10B)和大型(>10B)类别,并比较了包括零样本、单样本、少样本、思考链、类比、生成知识和思维树在内的各种提示技术。虽然大型MLLM在诸如代码生成等结构化任务中表现出色,使用少样本提示时准确率可达到96.88%,但所有模型在复杂推理和抽象理解方面均遇到困难,常常准确率低于60%,并伴有较高的虚构率。对于小型模型,结构推理提示通常将虚构率增加到75%,并且导致了更长的响应时间(大型MLLM超过20秒),而更简单的提示方法则提供了更简明高效的输出。没有一种提示方法能够统一优化所有任务类型。相反,结合示例指导和选择性结构推理的适应性策略对于提高稳健性、效率和事实准确性至关重要。我们的发现为提示工程提供了实用建议,并支持更可靠地在包括AI辅助编程、知识检索和多模态内容理解在内的各种应用中部署MLLMs。