LLM2D
使用多视图视觉语言模型和屏幕时间跟踪器增强儿童屏幕时间识别
Enhancing Screen Time Identification in Children with a Multi-View Vision Language Model and Screen Time Tracker
作者: Xinlong Hou, Sen Shen, Xueshen Li, Xinran Gao, Ziyi Huang, Steven J. Holiday, Matthew R. Cribbet, Susan W. White, Edward Sazonov, Yu Gan
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2410.01966v3

摘要

arXiv:2410.01966v3 宣告类型: 替换-交叉 摘要:准确监控幼儿的屏幕暴露对于研究与屏幕使用相关的现象(如儿童肥胖、体育活动和社会互动)的研究至关重要。现有的大多数研究依赖于自我报告或笨重的可穿戴传感器的手动测量,因此在捕获屏幕暴露的定量数据方面缺乏效率和准确性。在这项工作中,我们构建了一个新颖的传感器信息系统框架,利用一种称为屏幕时间追踪器(STT)的可穿戴传感器的自中心图像,以及一个视觉语言模型(VLM)。特别是,我们设计了一个多视角的VLM,它可以处理自中心图像序列的多个视角,并动态地解释屏幕暴露。通过使用儿童日常活动的数据集,我们验证了我们的方法,结果表明,与现有方法相比,特别是在普通视觉语言模型和物体检测模型中,我们的方法在屏幕暴露的定量数据捕获方面有了显著改进。这些结果支持了这种监控方法的潜力,可以在自然环境下的儿童行为研究中优化屏幕暴露的研究。