摘要
arXiv:2504.04903v1 Announce Type: cross
摘要:我们介绍了Lunima-OmniLV(简称OmniLV),这是一种针对低级视觉的通用多模态多任务框架,涵盖了四大类别中超过100个子任务:图像恢复、图像增强、弱语义密集预测和风格化。OmniLV利用文本和视觉提示提供灵活且用户友好的交互。基于基于扩散变换器(DiT)的生成先验,我们的框架支持任意分辨率——在1K分辨率下实现最优性能,同时保留精细细节和高保真度。通过广泛的实验,我们证明了分别对文本和视觉指令进行编码,结合浅层特征控制的协同训练,对于减轻任务模糊性和增强多任务泛化是必不可少的。我们的发现还表明,在低级视觉模型中整合高层次的生成任务可能会损害细节敏感的恢复。这些见解为更稳健和泛化的低级视觉系统开辟了途径。