LLM2D
Reddit 编辑作为大规模经验数据集用于图像变换
REALEDIT: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations
作者: Peter Sushko, Ayana Bharadwaj, Zhi Yang Lim, Vasily Ilin, Ben Caffee, Dongping Chen, Mohammadreza Salehi, Cheng-Yu Hsieh, Ranjay Krishna
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.03629v1

摘要

arXiv:2502.03629v1 声明类型: cross 摘要:现有的图像编辑模型难以满足现实世界的需求。尽管在学术基准测试中表现出色,但它们仍未被广泛采用以满足实际用户需求。为这些模型提供数据集的编辑使用了人工编辑,缺乏能够应对用户请求真正多样性的规模和生态有效性。我们介绍了REALEDIT,这是一个包含真实用户请求和来源于Reddit的人类编辑的大规模图像编辑数据集。REALEDIT包含一个包含9300个示例的测试集,用于评估模型在真实用户请求上的表现。结果显示,现有模型在这些任务上表现不佳,突显了需要现实训练数据的必要性。为了解决这一问题,我们介绍了48,000个训练示例,并训练了RELALEDIT模型,取得了显著的进步——在人类判断中比竞争对手高出165个elo点,自动VIEScore指标的相对改进达到92%。我们将模型部署在Reddit上,测试其在新请求上的表现,收到了积极反馈。除了图像编辑,我们通过与一家深度假脸检测非营利组织合作,探索了REALEDIT在检测编辑图片方面的潜力。在RELALEDIT数据上微调他们的模型,其F1分数提高了14个百分点,这证明了该数据集在广泛应用中的价值。