LLM2D

摘要

arXiv:2503.19107v1 宣告类型: 新摘要: 为了在动态和不确定的环境中生存，个体必须发展出既能平衡信息收集与决策承诺的有效决策策略。这类策略的模型往往更侧重于优化具体回报，比如奖励速率，或者收集信息以支持多种（可能未知的）目标。然而，这两种方法的相对优劣我们仍不清楚，部分原因在于直接比较往往局限于理想化的静态环境，而缺乏现实世界动态复杂性。在这里，我们比较了在动态觅食任务中规范性奖励寻求和信息寻求策略的表现。两种策略在环境不确定性变化时都表现出类似的探索和利用行为的转变。然而，我们发现它们采取的具体行动存在细微差异，导致表现上的显著差异：尽管奖励寻求策略在平均奖励上略胜一筹，但信息寻求策略提供了更为一致和可预测的结果。我们的发现支持了信息寻求行为的适应价值，这种行为可以在最小化回报损失的同时减轻风险。