LLM2D
Reddit 编辑作为大规模实证数据集用于图像变换
REALEDIT: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations
作者: Peter Sushko, Ayana Bharadwaj, Zhi Yang Lim, Vasily Ilin, Ben Caffee, Dongping Chen, Mohammadreza Salehi, Cheng-Yu Hsieh, Ranjay Krishna
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2502.03629v2

摘要

arXiv:2502.03629v2 发布类型: replace-cross 摘要:现有的图像编辑模型难以满足实际需求。尽管它们在学术基准测试中表现出色,但在实际用户需求方面尚未得到广泛应用。支持这些模型的数据集使用的是人工编辑,缺乏能够解决用户真实请求多样性的规模和生态效度。我们介绍了REALEDIT,这是一个包含真实用户请求和来自Reddit的人工编辑的大规模图像编辑数据集。REALEDIT包含了一个包含9300个示例的测试集,用于评估模型在真实用户请求上的表现。我们的结果显示,现有模型在这些任务上表现不佳,突显了现实训练数据的必要性。为了解决这一问题,我们提出了48,000个训练示例,并训练了我们的REALEDIT模型,取得了显著的提升——在人类判断方面领先竞争对手多达165个Elo点,在自动化的VIEScore指标上相对改进了92%。我们在Reddit上部署了我们的模型,用于测试新的请求,并收到了积极的反馈。除了图像编辑,我们还通过与一家深度造假检测非营利组织合作,探索了REALEDIT在检测编辑图像方面的潜力。在READEIT数据上微调他们的模型,F1分数提高了14个百分点,再次证明了该数据集在广泛应用中的价值。