关键词:
金融用户分类
行为预测
遗传算法
因果森林
集成学习
摘要:
金融行业一直以来都在积极探索各种方法提高客户体验、增强市场竞争力以及改善金融产品的推广。受数字化浪潮的影响,金融科技成为了国际竞争合作新的关注点。以信用卡为代表的金融业务近年来走在了金融科技应用的前列。信用卡外呼是信用卡业务进行的一条重要途径,传统的信用卡外呼需要银行工作人员人工对用户进行主观判断,导致外呼效率很低,业务办理失败率较高。且随着数据量的增大,以及数据维数的增多,使用单个机器学习方法在分类问题中显得捉襟见肘。集成学习以互补的方式整合各种方法和模型,形成一个更优的预测模型。由于集成学习预测的成功在很大程度上取决于构成基学习器的选择与最终的加权策略,且基学习器的相对独立性带来了高过拟合风险,导致处理银行用户数据这类高维不平衡数据时泛化性和鲁棒性较低,加之在模型优化预测指标方面,传统的评价指标包括AUC等并不能很好地从业务角度来反应模型预测的效果。如何更有效地从实际业务出发进行用户行为预测成为了亟需解决的一大问题。
基于上述内容,本文的主要工作如下:
(1)提出了一种自适应交叉变异概率的遗传算法(CM-AGA,Genetic Algorithm with Adaptive Crossover and Mutation Probabilities)。提出了一种基于周期进化理论的自适应遗传策略,根据该策略对个体变异算子、交叉算子、参数初始化策略进行了修改,扩大了搜索空间,从而防止过早收敛,降低了陷入局部最优解的风险。
(2)提出了一种基于Stacking方法的选择性集成模型(SSE,Stacking-Based Selective Ensemble Model)。提出一种基于滑动窗口的随机森林时间序列预测算法(SHRF,Optimized RF with Sliding Window and Latent Spatiotemporal Feature H),使用用户历史数据拟合构建对照组,使用全量时效用户数据作为实验组,通过因果森林训练得出的平均因果效应作为基学习器定权的评价指标,在Stacking集成方法的框架下使用CM-AGA对基学习器进行定权,构建选择性集成模型。
(3)将基于Stacking方法的选择性集成模型应用于J银行总行的实际生产,并使用银行真实用户数据集评估了模型的实际表现,综合展示了本文提出的方法在实际案例中的成功应用,也详细阐述了用户分类问题从算法设计到模型预测的全部流程。
本文在多个数据集上进行了广泛的对比实验,展示了本文所提出模型的优越性。在实际应用方面,2024年全年J银行信用卡累计分期总金额超过20亿元,其中模型支持部分累计分期金额13.57亿元,模型产出为业务提升带来了显著的支撑效果。