LLM2D

摘要

arXiv:2504.07424v1 通知类型: 新摘要：基于指令的图像编辑(IIE)模型由于多模态大规模语言模型(MLLMs)和扩散模型的进步，已经取得了显著的改进，这些模型能够理解和推理复杂的编辑指令。除了推动当前IIE模型的发展，准确评估它们的输出变得越来越重要和具有挑战性。当前IIE评估方法及其评估过程往往未能与人类判断对齐，且常常缺乏解释性。为了解决这些限制，我们提出了JUdgement through Routing of Expertise (JURE)。在JURE中，每个专家都是预先选定的模型，假设它们配备了可以提供有用反馈的原子级专业技能，路由器会动态地将给定指令及其输出的评估任务分配给合适的专家，并将他们的反馈综合为最终的判断。JURE在两个方面是值得信赖的。首先，它可以通过检查路由后的专家及其反馈来轻松提供关于其判断的说明。其次，实验结果表明，JURE的可靠性很高，因为它在与人类判断的一致性方面取得了优异的表现，为自动IIE评估设定了新的标准。此外，JURE的可扩展设计具有前瞻性的灵活性——模块化的专家可以无缝替换或扩展，以适应IIE的发展，同时保持始终如一的高质量评估。我们的评估数据和结果可在 https://github.com/Cyyyyyrus/JURE.git 获取。