摘要
arXiv:2504.03857v1 通知类型: 横向交叉
摘要:受近期生成式AI和可穿戴摄像设备(例如智能眼镜和AI增强的别针)的进步的启发,我研究了基础模型通过第一人称摄像数据学习佩戴者个人生活的能力。为了测试这一点,我在一周内连续佩戴摄像头54小时,生成了各种长度的摘要(例如一分钟、一小时和一天的摘要),并分别对GPT-4o和GPT-4o-mini进行了微调以适应生成的摘要层次结构。通过查询这些微调过的模型,我们可以了解到模型学到了关于我的哪些信息。结果参差不齐:这两种模型都学到了一些关于我的基本信息(例如大致年龄、性别)。此外,GPT-4o 正确推断出我住在匹兹堡,是CMU的博士研究生,是右利手,并且有一只宠物猫。但是,这两种模型也出现了幻觉现象,会在我的生活视频片段中出现的人物姓名上进行杜撰。