LLM2D

摘要

arXiv:2303.15201v2 宣告类型: 替换-交叉摘要：在本文中，我们介绍了一种通用估计算法，用于基于有限数量的演示，在传感器运动控制任务中学习人类感知和控制的模型。该模型的结构包括：i. 代理对环境及其关联观测随控制行为演变的内部表示，以及ii. 代理对可观测结果的偏好。我们考虑该模型结构与主动推理相一致，主动推理是认知科学中的人类感知与行为理论。根据主动推理理论，代理通过减少惊愕（定义为当前感觉观察与偏好感觉观察之间差异的一种度量）来作用于世界。我们提出了一种双层优化方法来进行估算，该方法依赖于先验分布的结构假设，这些分布参数化了人类代理对环境的统计准确性模型。为了说明所提出的方法，我们基于自然istic数据集估计了一种跟随汽车行为的模型。总体而言，结果表明，从数据中学习人类感知和控制的主动推理模型是一种相对于黑盒驾驶模型的有前景的替代方案。