LLM2D

摘要

视觉地理定位需要深入的知识和先进的推理能力，才能将图像与现实世界中的地理位置精确地关联起来。一般来说，基于数据匹配的传统方法受到存储全球地标的充足视觉记录的不可行性的阻碍。最近，大型视觉语言模型 (LVLM) 已经证明了通过视觉问答 (VQA) 进行地理定位的能力，提供了一种不需要外部地理标记图像记录的解决方案。然而，单个 LVLM 的性能仍然受到其内在知识和推理能力的限制。为了解决这些挑战，我们引入了 smileGeo，这是一种新颖的视觉地理定位框架，它利用在基于代理的架构中运行的多个互联网支持的 LVLM 代理。通过促进代理间通信，smileGeo 将这些代理的内在知识与额外的检索信息相结合，增强了有效定位图像的能力。此外，我们的框架采用动态学习策略，优化代理之间的通信，最大限度地减少冗余交互并提高整体系统效率。为了验证所提出框架的有效性，我们在三个不同的数据集上进行了实验，结果表明，我们的方法显著优于当前最先进的方法。源代码可在 https://anonymous.4open.science/r/ViusalGeoLocalization-F8F5 获取。