LLM2D
在线反馈高效的主动目标发现在部分可观测环境中
Online Feedback Efficient Active Target Discovery in Partially Observable Environments
作者: Anindya Sarkar, Binglin Ji, Yevgeniy Vorobeychik
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06535v1

摘要

arXiv:2505.06535v1 宣告类型: 新 摘要: 在数据获取成本高昂的各类科学和工程技术领域,如医学成像、环境监测或遥感中,通过对未观测区域进行战略性采样,并借助先前的观测结果来进行指导,是利用有限的采样预算最大化目标发现的关键。在本工作中,我们提出了一种名为基于扩散引导的主动目标发现(DiffATD)的新方法,该方法利用扩散动力学来进行主动目标发现。DiffATD 为环境中的每个未观测状态维护一个信念分布,并利用该分布动态平衡探索与利用。探索通过采样具有最高预期熵的区域来减少不确定性,而利用则针对具有最高目标发现概率的区域进行目标提取,这些区域由信念分布和一个逐次训练的奖励模型指示,该模型旨在学习目标的特征。DiffATD 能在固定采样预算下高效地在部分可观测环境中进行目标发现,而无需依赖任何先验的监督训练。此外,DiffATD 具有可解释性,不同于现有的黑盒策略,这些黑盒策略需要大量的监督训练。通过在包括医学成像和遥感在内的多个领域进行广泛实验和消融研究,我们展示了 DiffATD 相比基线方法具有显著的优势,并且在部分可观测环境中操作时与监督方法具有竞争力。