LLM2D

摘要

arXiv:2501.19298v1 安装类型: 新摘要: 近年来，随着智能家居系统的普及，这些环境中的安全问题已成为日益严重的威胁。目前，大多数智能家居安全解决方案，如异常检测和行为预测模型，都是通过预先收集的固定数据集进行训练的。然而，数据集收集的过程耗时且缺乏适应不断变化的智能家居环境所需的灵活性。此外，收集个人数据引发了用户的重大隐私问题。最近，大型语言模型(LLMs)由于它们在自然语言处理、推理和解决问题方面的强大能力，已成为各种任务和多个应用领域的强大工具。在本文中，我们提出了一种基于大型语言模型的合成数据集生成框架IoTGen，以增强下游智能家居智能模型的一般化能力。通过生成能够反映环境变化的新合成数据集，智能家居智能模型可以重新训练以克服固定且过时数据的局限性，从而更好地适应现实世界家庭环境的动态性。具体而言，我们首先提出了一种针对物联网行为数据的结构模式感知压缩(SPPC)方法，该方法在显著减少标记消耗的同时，保留了数据中的最有信息内容。然后，我们提出了一种系统化的方法来创建提示并实现数据生成，以自动生成具有规范性和合理性的物联网合成数据，辅助任务模型的自适应训练，以提高泛化能力和现实世界性能。