LLM2D

摘要

arXiv:2502.03629v2 发布类型: replace-cross 摘要：现有的图像编辑模型难以满足实际需求。尽管它们在学术基准测试中表现出色，但在实际用户需求方面尚未得到广泛应用。支持这些模型的数据集使用的是人工编辑，缺乏能够解决用户真实请求多样性的规模和生态效度。我们介绍了REALEDIT，这是一个包含真实用户请求和来自Reddit的人工编辑的大规模图像编辑数据集。REALEDIT包含了一个包含9300个示例的测试集，用于评估模型在真实用户请求上的表现。我们的结果显示，现有模型在这些任务上表现不佳，突显了现实训练数据的必要性。为了解决这一问题，我们提出了48,000个训练示例，并训练了我们的REALEDIT模型，取得了显著的提升——在人类判断方面领先竞争对手多达165个Elo点，在自动化的VIEScore指标上相对改进了92%。我们在Reddit上部署了我们的模型，用于测试新的请求，并收到了积极的反馈。除了图像编辑，我们还通过与一家深度造假检测非营利组织合作，探索了REALEDIT在检测编辑图像方面的潜力。在READEIT数据上微调他们的模型，F1分数提高了14个百分点，再次证明了该数据集在广泛应用中的价值。