LLM2D

摘要

arXiv:2504.13904v1 类型: cross 摘要: 我们假设最优的系统响应源自基于因果和反事实知识的适应性策略。反事实推理使我们能够创造假设情景以考察不同系统响应的效果。我们通过因果发现这一过程来增强这一方法，因果发现识别出受底层因果结构指导的策略，这些策略规范了系统行为。此外，我们考虑可能影响用户-系统交互的心理构建和不可观测的噪声作为潜在因素。我们展示了这些因素可以有效估计。我们使用因果发现来识别用户和系统陈述之间的策略级因果关系，从而指导个性化反事实对话的生成。我们将用户陈述策略建模为因果因素，使得系统策略可以被视为反事实动作。此外，我们基于反事实数据优化了选择系统响应的策略。使用有关社会公益的实证数据集的结果表明，在说服性系统的结果上取得了显著改善，累积奖励的增加证实了因果发现指导个性化反事实推理和优化具有说服力对话系统的对话策略的有效性。