LLM2D
基于多视角视觉语言模型和屏幕时间追踪器的儿童屏幕时间识别增强
Enhancing Screen Time Identification in Children with a Multi-View Vision Language Model and Screen Time Tracker
作者: Xinlong Hou, Sen Shen, Xueshen Li, Xinran Gao, Ziyi Huang, Steven J. Holiday, Matthew R. Cribbet, Susan W. White, Edward Sazonov, Yu Gan
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2410.01966v2

摘要

准确监测幼儿屏幕使用时间对于研究与屏幕使用相关的现象(如儿童肥胖、体力活动和社交互动)至关重要。大多数现有研究依赖于自我报告或笨重的可穿戴传感器进行手动测量,因此在捕捉定量屏幕使用数据方面效率和准确性不足。在这项工作中,我们开发了一个新颖的传感器信息学框架,该框架利用来自可穿戴传感器的以自我为中心的图像(称为屏幕时间追踪器,STT)和视觉语言模型 (VLM)。特别是,我们设计了一个多视角 VLM,它可以从以自我为中心的图像序列中获取多个视角,并动态地解释屏幕使用情况。我们使用儿童自由活动数据集验证了我们的方法,证明了该方法比现有的纯视觉语言模型和目标检测模型有了显著改进。结果证实了这种监测方法的潜力,它可以优化在儿童自然环境中对屏幕使用时间的行为研究。