LLM2D

摘要

arXiv:2502.10953v1 交叉类型: cross 摘要：本实证研究评估了大型语言模型（LLMs）在预测智能家居系统配置错误修复方面的有效性。研究分析了三种主要的LLM——GPT-4、GPT-4o（GPT-4 Turbo）和Claude 3.5 Sonnet，使用四种不同的提示设计来评估它们识别适当修复策略和生成正确解决方案的能力。研究利用了从Home Assistant Community获取的129个调试问题数据集，重点分析了21个随机选定的案例。结果显示，在提供错误描述和原始脚本的情况下，GPT-4和Claude 3.5 Sonnet在策略预测方面的准确率达到了80%。GPT-4在不同类型的提示下表现出一致的性能，而GPT-4o虽在准确性上稍低，但在速度和成本效益方面具有优势。研究发现，提示设计显著影响模型性能，包含描述和原始脚本的综合提示效果最佳。本研究为提高智能家居系统配置的自动化错误修复提供了宝贵的见解，并展示了LLM在解决配置相关挑战方面的潜力。