LLM2D

摘要

arXiv:2502.03629v1 声明类型: cross 摘要：现有的图像编辑模型难以满足现实世界的需求。尽管在学术基准测试中表现出色，但它们仍未被广泛采用以满足实际用户需求。为这些模型提供数据集的编辑使用了人工编辑，缺乏能够应对用户请求真正多样性的规模和生态有效性。我们介绍了REALEDIT，这是一个包含真实用户请求和来源于Reddit的人类编辑的大规模图像编辑数据集。REALEDIT包含一个包含9300个示例的测试集，用于评估模型在真实用户请求上的表现。结果显示，现有模型在这些任务上表现不佳，突显了需要现实训练数据的必要性。为了解决这一问题，我们介绍了48,000个训练示例，并训练了RELALEDIT模型，取得了显著的进步——在人类判断中比竞争对手高出165个elo点，自动VIEScore指标的相对改进达到92%。我们将模型部署在Reddit上，测试其在新请求上的表现，收到了积极反馈。除了图像编辑，我们通过与一家深度假脸检测非营利组织合作，探索了REALEDIT在检测编辑图片方面的潜力。在RELALEDIT数据上微调他们的模型，其F1分数提高了14个百分点，这证明了该数据集在广泛应用中的价值。