LLM2D

摘要

arXiv:2504.09396v1 类别：交叉学科摘要：本文提出了一种结合尾部风险敏感性、宏观经济制度建模和监管合规性的保险索赔预测强化学习（RL）框架。索赔预测问题被公式化为具有有限时间跨度的马尔可夫决策过程（MDP），其中通过条件尾部风险（CVaR）约束下的梯度策略优化（PPO）来优化储备调整。为了增强政策在不同经济条件下的稳健性，代理是通过一种意识宏观经济制度的递增训练课程来训练的，该课程逐步增加市场波动性暴露。奖励结构惩罚储备短缺、资本效率低下和最低偿付能力要求的违反，设计元素受到偿二代和自身风险与偿付能力评估（ORSA）框架的启发。在两个行业数据集——工伤赔偿和责任保险——上的实证评估表明，基于CVaR的RL代理在多个指标上优于传统的索赔预测方法，包括尾部风险控制（CVaR$_{0.95}$）、资本效率和监管违规率。该框架还支持固定冲击压力测试和分阶段宏观经济分析，提供了一种在不确定性下进行索赔预测的原理性且可扩展的方法。