LLM2D
基于多视角视觉语言模型和屏幕时间追踪器的儿童屏幕时间识别增强
Enhancing Screen Time Identification in Children with a Multi-View Vision Language Model and Screen Time Tracker
作者: Xinlong Hou, Sen Shen, Xueshen Li, Xinran Gao, Ziyi Huang, Steven J. Holiday, Matthew R. Cribbet, Susan W. White, Edward Sazonov, Yu Gan
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.01966v1

摘要

准确监测幼儿的屏幕使用时间对于研究与屏幕使用相关的现象至关重要,例如儿童肥胖、身体活动和社交互动。大多数现有研究依赖于自我报告或来自笨重的可穿戴传感器的手动测量,因此在捕获定量屏幕曝光数据方面缺乏效率和准确性。在这项工作中,我们开发了一个新颖的传感器信息学框架,该框架利用来自可穿戴传感器的以自我为中心的图像,称为屏幕时间跟踪器(STT),以及一个视觉语言模型(VLM)。特别是,我们设计了一个多视图 VLM,它从以自我为中心的图像序列中获取多个视图,并动态地解释屏幕曝光。我们使用儿童自由活动数据集验证了我们的方法,证明了在普通视觉语言模型和目标检测模型中比现有方法有显著的改进。结果证实了这种监测方法的潜力,它可以优化对儿童自然环境中屏幕曝光的行为研究。