LLM2D
未观察到混杂因素下的 sequential 说服过程 前政策评估
Off-Policy Evaluation for Sequential Persuasion Process with Unobserved Confounding
作者: Nishanth Venkatesh S., Heeseung Bang, Andreas A. Malikopoulos
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01211v1

摘要

arXiv:2504.01211v1 公布类型: 新闻 摘要: 在本文中,我们将贝叶斯说服框架扩展以考虑发送者-接收者交互中的未观察到的混杂变量。传统模型假设信念更新遵循贝叶斯原则,但在现实世界场景中,隐藏变量会影响接收者信念形成和决策过程。我们将此概念化为一个顺序决策问题,在此过程中,发送者和接收者在多个轮次中相互作用。在每一轮中,发送者与接收者沟通,接收者也与环境互动。关键在于接收者的信念更新受到一个未观察到的混杂变量的影响。通过将以这种方式重新形式化的场景构建成部分可观测马尔可夫决策过程(POMDP),我们捕捉到发送者对于接收者信念动态和未观察混杂变量的不完整信息。我们证明,在这个POMDP中找到基于观察的最优策略等价于在原始说服框架中寻找最优信号策略。此外,我们展示了这种重新形式化如何促进说服过程中离策略评估的近端学习应用。这种进展使发送者能够仅使用行为策略下的观察数据来评估替代信号策略,从而无需进行成本高昂的新实验。