LLM2D

摘要

arXiv:2504.10158v1 宣布类型：交叉摘要：当前的目标检测器在遇到分布偏移时，在实际应用中常常表现出显著的性能下降。因此，目标检测器的离分布外（OOD）泛化能力受到了研究人员的越来越多的关注。尽管对该领域的兴趣在增长，但仍缺乏一个大规模的、全面的、针对更复杂的物体检测和语义分割任务进行离分布外泛化评估的细粒度注解数据集和评估基准。为了解决这一问题，我们引入了COUNTS，这是一个包含对象级别注解的大规模离分布外数据集。COUNTS涵括了14种自然分布偏移，超过222,000个样本，以及超过1,196,000个标注边界框。利用COUNTS，我们引入了两个新的基准：O(OD)2和OODG。O(OD)2旨在通过训练数据和测试数据之间的受控分布偏移来全面评估目标检测器的离分布外泛化能力。另一方面，OODG旨在评估大规模多模态语言模型（MLLMs）在语义分割能力上的离分布外泛化。我们的研究发现，虽然大型模型和庞大的预训练数据在内部分布（IID）场景中极大地提升了性能，但在外部分布（OOD）环境中，无论是目标检测器还是MLLMs都存在显著的局限性和改进空间。在视觉语义分割任务中，即使是先进的GPT-4o和Gemini-1.5也只能分别达到56.7%和28.0%的准确率。我们希望COUNTS能促进稳健的目标检测器和MLLMs的研发与评估，使其在分布偏移的情况下仍能保持高性能。