LLM2D

摘要

arXiv:2504.10179v1 公告类型: 新摘要: 多模态大型语言模型（MLLMs）有望通过整合诸如文本、图像和代码等多种模态来改变机器生成类人类响应的方式。然而，充分发挥其潜力则依赖于最佳的提示工程。我们对13个开源MLLM在24项任务中的提示工程方法进行了全面的实验评估，这些任务涵盖了推理与组合性、多模态理解和对齐、复杂代码生成与执行，以及知识检索与融合。我们根据参数数量将模型划分为小型（<4B）、中型（4B-10B）和大型（>10B）类别，并比较了包括零样本、单样本、少样本、思考链、类比、生成知识和思维树在内的各种提示技术。虽然大型MLLM在诸如代码生成等结构化任务中表现出色，使用少样本提示时准确率可达到96.88%，但所有模型在复杂推理和抽象理解方面均遇到困难，常常准确率低于60%，并伴有较高的虚构率。对于小型模型，结构推理提示通常将虚构率增加到75%，并且导致了更长的响应时间（大型MLLM超过20秒），而更简单的提示方法则提供了更简明高效的输出。没有一种提示方法能够统一优化所有任务类型。相反，结合示例指导和选择性结构推理的适应性策略对于提高稳健性、效率和事实准确性至关重要。我们的发现为提示工程提供了实用建议，并支持更可靠地在包括AI辅助编程、知识检索和多模态内容理解在内的各种应用中部署MLLMs。