LLM2D

摘要

arXiv:2501.18504v3 更新类型: 替换-交叉摘要: 大型语言模型 (LLM) 图像识别是提取图像数据的一种强大工具，但准确性依赖于在提示中提供足够的线索——这需要领域专家来进行专门的任务。我们引入了利用进化进行准确识别的线索学习方法 (CLEAR)，该方法结合了 LLMs 和进化计算来生成和优化线索，从而改善图像中特殊特征的识别。通过自动生成一种新的领域特定表示，并利用遗传算法优化合适的文本线索来实现这一点。我们将 CLEAR 应用于识别建筑物内部和外部图像中可持续性数据的实际任务。我们研究了使用可变长度表示与固定长度表示的效果，并展示了如何通过将分类估计重构为实值估计来改进 LLM 的一致性。我们展示了与专家手工识别和提示相比，CLEAR 在每一项任务中都实现了更高的准确性，错误率最多降低了两个数量级，并通过消融研究证明了解决方案的简洁性。