LLM2D

摘要

arXiv:2504.04903v2 宣告类型: replace-cross 摘要: 我们提出了Lunima-OmniLV (简称为OmniLV)，这是一种针对低级视觉的通用多模态多任务框架，涵盖了四大类超过100个子任务：图像恢复、图像增强、弱语义密集预测和风格化。OmniLV 利用文本和视觉提示提供灵活且用户友好的交互。基于基于扩散变换器(DiT)生成先验，我们的框架支持任意分辨率——在1K分辨率下实现最佳性能——同时保持细腻细节和高保真度。通过广泛实验，我们证明，分别编码文本和视觉指令，并结合浅层特征控制的协同训练，对于缓解任务模糊性和增强多任务泛化是至关重要的。我们的研究结果还表明，将高级生成任务整合到低级视觉模型中可能会影响细节敏感的恢复效果。这些见解为构建更为稳健和泛化的低级视觉系统铺平了道路。