LLM2D

摘要

arXiv:2502.14260v1 交叉类型：公告摘要：在过去十年中，生成模型在增强眼底图像方面取得了显著成功。然而，这些模型的评估仍然面临显著挑战。对于眼底图像增强需要一个全面的评估基准，原因有三项：1）现有的去噪指标（如PSNR、SSIM）难以扩展到下游的实际临床研究（如血管形态一致性）。2）缺乏对配对和非配对增强方法的综合评估，以及需要专家协议来准确评估临床价值。3）理想的评估系统应为未来眼底图像增强的发展提供有价值的见解。为此，我们提出了一种名为EyeBench的新型全面基准，为增强模型与临床需求对齐提供见解，为未来工作提供基础，以提高生成模型在眼底图像增强中的临床相关性和应用性。EyeBench具有三个吸引人的特性：1）多维度的下游临床对齐评估：除了评估增强任务，我们还提供了几种对于眼底图像具有临床意义的下游任务，包括血管分割、DR分级、去噪泛化和病灶分割。2）医学专家指导的评估设计：我们引入了一种新的数据集，促进配对和非配对方法之间的全面和公平比较，并包括由医学专家进行的手动评估协议。3）有价值的见解：我们的基准研究对不同下游任务中现有方法进行了全面和严谨的评估，帮助医学专家做出明智的选择。此外，我们还对现有方法面临的挑战进行了更深入的分析。代码可在[\url{https://github.com/Retinal-Research/EyeBench}]获取。