LLM2D
基于大语言模型的工具链视觉编辑:面向实时应用的有效蒸馏方法
Visual Editing with LLM-based Tool Chaining: An Efficient Distillation Approach for Real-Time Applications
作者: Oren Sultan, Alex Khasin, Guy Shiran, Asnat Greenstein-Messica, Dafna Shahaf
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.02952v1

摘要

我们提出了一种实用的蒸馏方法,用于微调大型语言模型 (LLM),以便在实时应用中调用工具。我们专注于视觉编辑任务;具体来说,我们通过解释用户用自然语言指定(“黄金时间”)的风格化请求来修改图像和视频,使用 LLM 选择适当的工具及其参数来实现所需的视觉效果。我们发现像 GPT-3.5-Turbo 这样的专有 LLM 在这项任务中显示出潜力,但它们的高成本和延迟使其不适合实时应用。在我们的方法中,我们使用来自(更大)教师 LLM 和行为信号的指导来微调(更小)的学生 LLM。我们引入了离线指标来评估学生 LLM。在线和离线实验都表明,我们的学生模型设法匹配了我们教师模型(GPT-3.5-Turbo)的性能,显着降低了成本和延迟。最后,我们表明,在低数据情况下,使用增强技术,微调效果提升了 25%。