LLM2D

摘要

arXiv:2409.13941v1 公告类型: 交叉摘要: 我们利用各种类型的汽车图像，组合成鸟或狮子等动物的图像，以环境保护为主题，最大化单张合成图像中的汽车信息量，并提高人们对环境挑战的认识。我们提出了一种新颖的图像交互方式，通过艺术化的马赛克图像，使用简单的“点击并显示”操作，展示马赛克图像中的瓦片图像与相应原始汽车图像之间的交互切换，这些图像将自动保存在桌面上。我们构建了一个名为TalkMosaic的多模态自定义GPT，通过整合汽车图像信息及相关知识到ChatGPT中。通过上传原始汽车图像到TalkMosaic，我们可以就给定的汽车图像提问，并高效地获得相应答案，例如在哪里购买符合高环保标准的汽车轮胎。我们深入分析了如何使用稀疏注意力和量化技术加速多模态LLM的推理，提出了概率性FlashAttention（PrFlashAttention）和阶梯自适应量化（SAQ）方法。实现的原型展示了所提出方法的可行性和有效性。