LLM2D

摘要

arXiv:2504.00221v1 交叉公告类型：跨领域摘要：大型语言模型（LLMs）正在向多模态大型语言模型（MLLMs）发展，能够处理图像、音频和视频以及文本。通过结合第一人称视频，多模态LLMs展示了通过视频和音频理解人类活动的巨大潜力，这使得很多人类-计算机交互和人类增强应用成为可能，例如支持人类活动、实际世界代理和技能向机器人或其他个体的转移。然而，处理高分辨率和长时间的视频会产生大量潜在表示，导致显著的内存和处理需求，限制了MLLMs能够处理的长度和分辨率。降低视频分辨率可以减少内存使用，但通常会牺牲理解度。本文介绍了一种通过整合眼动数据优化第一人称视频分析的方法，并提出了一种将第一人称视觉视频分解为关注区域的方法。通过处理这些选择性关注输入，我们的方法在任务理解上能够达到或甚至优于处理全分辨率图像的效果，但视频数据输入量显著减少（像素数量减少到十分之一），提供了一种高效利用MLLMs解释和运用人类技能的解决方案。