LLM2D
基于大型语言模型的工具链视觉编辑:一种用于实时应用的高效蒸馏方法
Visual Editing with LLM-based Tool Chaining: An Efficient Distillation Approach for Real-Time Applications
作者: Oren Sultan, Alex Khasin, Guy Shiran, Asnat Greenstein-Messica, Dafna Shahaf
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.02952v3

摘要

我们提出了一种实用的蒸馏方法,用于微调大型语言模型 (LLM),以便在实时应用中调用工具。我们关注视觉编辑任务;具体来说,我们通过解释用户用自然语言指定的风格化请求(例如“黄金时段”),使用大型语言模型选择合适的工具及其参数来实现所需的视觉效果,从而修改图像和视频。我们发现,诸如 GPT-3.5-Turbo 等专有大型语言模型在该任务中显示出潜力,但其高成本和高延迟使其不适用于实时应用。在我们的方法中,我们使用来自教师大型语言模型的指导和行为信号来微调(较小的)学生大型语言模型。我们引入了离线指标来评估学生大型语言模型。在线和离线实验都表明,我们的学生模型能够匹配教师模型(GPT-3.5-Turbo)的性能,同时显著降低了成本和延迟。最后,我们表明,在低数据情况下,使用数据增强可以将微调效果提高 25%。