摘要
arXiv:2503.01894v2 宣布类型: 替换-交叉
摘要:我们介绍了本地交叉视觉空间(LIVS)数据集,这是一个多标准对齐的基准,通过与30个社区组织为期两年的参与性过程开发,旨在支持包容性城市规划中多标准对齐的文本到图像(T2I)模型。该数据集编码了13,462张图像间的37,710对比较,根据来自634个社区定义概念的六个标准——可达性、安全性、舒适性、吸引力、包容性和多样性——结构化。利用直接偏好优化(DPO),我们将Stable Diffusion XL微调以反映多标准空间偏好,并通过四个案例研究评估LIVS数据集和微调后的模型:(1)DPO在标注偏好量大时,提高了对齐程度;(2)偏好模式随着参与者身份的变化而变化,强调了交叉数据的必要性;(3)人类撰写的提示生成比LLM生成的提示更具特色的视觉输出,影响标注的决断性;(4)交叉群体在各个标准上系统地分配不同的评分,揭示了单一目标对齐的局限性。尽管DPO在特定条件下提高了对齐程度,但大量中性评分的存在表明,社区价值观存在异质性且往往模糊不清。LIVS为开发结合本地、利益相关方驱动偏好的T2I模型提供了基准,为基于上下文的对齐在空间设计中的应用提供了基础。