LLM2D
模型闭环 (MILO):利用大型语言模型加速多模态 AI 数据标注
Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.10702v2

摘要

随着对 AI 训练数据的需求不断增长,数据标注已成为一个全球性产业,但传统的依赖人工标注员的方法往往耗时、费力,且标注质量容易出现偏差。我们提出了模型闭环 (MILO) 框架,将 AI/ML 模型集成到标注流程中。我们的研究引入了一种协作范式,充分利用了专业人工标注员和大型语言模型 (LLM) 的优势。通过将 LLM 作为预标注和实时助手,以及对标注员响应的评判者,MILO 实现了人工标注员与 LLM 之间的有效交互模式。三项针对多模态数据标注的实证研究证明了 MILO 在减少处理时间、提高数据质量和增强标注员体验方面的有效性。我们还引入了质量指标,用于灵活评估和对开放式标注提供细致的反馈。MILO 框架对加速 AI/ML 开发、减少对人工标注的依赖以及促进人机价值观更好地协调具有重要意义。