LLM2D

摘要

arXiv:2504.04517v1 宣告类型: cross 摘要: 基于 extensive 数据集（如 GroundingDINO 和 LAE-DINO）预训练的基座模型在跨域少量样本对象检测（CD-FSOD）任务中表现优异。通过严格的少量样本训练，我们发现，将基于图像的数据增强技术与基于网格的次域搜索策略相结合，显著提升了这些基座模型的性能。基于 GroundingDINO，我们运用了几种广泛使用于图像增强的方法，并建立了优化目标，以有效地在广阔的次域空间中导航，寻找最佳的次域。此方法有助于高效的少量样本对象检测，并提出了通过高效搜索基础模型的最佳参数配置来解决CD-FSOD问题的方法。我们的发现极大地推动了在数据稀缺环境下视觉语言模型的实际部署，并为优化其跨域泛化能力提供了关键洞察，无需进行劳动密集型的重新训练。代码可在 https://github.com/jaychempan/ETS 获取。