摘要
arXiv:2504.09396v1 类别:交叉学科
摘要:本文提出了一种结合尾部风险敏感性、宏观经济制度建模和监管合规性的保险索赔预测强化学习(RL)框架。索赔预测问题被公式化为具有有限时间跨度的马尔可夫决策过程(MDP),其中通过条件尾部风险(CVaR)约束下的梯度策略优化(PPO)来优化储备调整。为了增强政策在不同经济条件下的稳健性,代理是通过一种意识宏观经济制度的递增训练课程来训练的,该课程逐步增加市场波动性暴露。
奖励结构惩罚储备短缺、资本效率低下和最低偿付能力要求的违反,设计元素受到偿二代和自身风险与偿付能力评估(ORSA)框架的启发。在两个行业数据集——工伤赔偿和责任保险——上的实证评估表明,基于CVaR的RL代理在多个指标上优于传统的索赔预测方法,包括尾部风险控制(CVaR$_{0.95}$)、资本效率和监管违规率。该框架还支持固定冲击压力测试和分阶段宏观经济分析,提供了一种在不确定性下进行索赔预测的原理性且可扩展的方法。