摘要
arXiv:2409.13941v1 公告类型: 交叉 摘要: 我们利用各种类型的汽车图像,组合成鸟或狮子等动物的图像,以环境保护为主题,最大化单张合成图像中的汽车信息量,并提高人们对环境挑战的认识。我们提出了一种新颖的图像交互方式,通过艺术化的马赛克图像,使用简单的“点击并显示”操作,展示马赛克图像中的瓦片图像与相应原始汽车图像之间的交互切换,这些图像将自动保存在桌面上。我们构建了一个名为TalkMosaic的多模态自定义GPT,通过整合汽车图像信息及相关知识到ChatGPT中。通过上传原始汽车图像到TalkMosaic,我们可以就给定的汽车图像提问,并高效地获得相应答案,例如在哪里购买符合高环保标准的汽车轮胎。我们深入分析了如何使用稀疏注意力和量化技术加速多模态LLM的推理,提出了概率性FlashAttention(PrFlashAttention)和阶梯自适应量化(SAQ)方法。实现的原型展示了所提出方法的可行性和有效性。