摘要
arXiv:2501.18504v2 通知类型: 替换-跨领域
摘要:大规模语言模型(LLM)图像识别是一种从图像中提取数据的强大工具,但准确性取决于在提示中提供足够的提示性信息 - 这需要领域专家来完成专门的任务。我们介绍了用于准确识别的Cue Learning 使用进化算子(CLEAR),这是一种结合了LLM和进化计算的方法,用于生成和优化提示,以改善图像中特定特征的识别。它通过自动生成新的领域特定表示,然后使用遗传算法优化合适的文本提示来实现这一点。我们将CLEAR 应用于从建筑物的室内和室外图像中识别可持续性数据的实际任务。我们探讨了使用可变长度表示与固定长度表示的效果,展示了通过将分类估计重构为实值估计如何提高LLM的一致性。我们展示了CLEAR 在每一项任务中都比专家人工识别和人工编写的提示提供了更高的准确率,错误率提高了两个数量级,并且消融研究证明了解决方案的简洁性。