随着我国的经济水平不断发展,人民生活水平的逐年提高,国内机动车保有量也不断突破新高。与此同时,机动车引发的道路交通事故不断增多,作为财产保险公司收入的重要来源,车险业务占据了财产保险市场的50%以上。据统计,大约20%的车险索赔具有欺诈的可能性,但只有不到3%的欺诈被起诉,欺诈形式日益严峻。而机器学习通过技术赋能,可以有效提升车险欺诈的识别效率。本文以理论分析与实证分析相结合的方式,首先总结了车险欺诈的形式和特点,并阐述了车险欺诈行为对保险行业和社会的危害,总结近年来常见的车险反欺诈方式。其次分析了与车险欺诈行为相关的信息不对称、不完全合约、效用理论等经济学理论。在对机器学习的理论进行概述后,结合随机森林(Random Forest, RF)和CatBoost,提出了RF-CatBoost算法对保单进行分类鉴别,以实现快速且准确的反欺诈检测。首先采用随机森林对保单的数据进行特征的重要性筛选,从而筛选出最能表征欺诈属性的特征,然后以CatBoost模型对保单进行反欺诈检测。实验结果表明,该模型比使用单一CatBoost模型在预测准确度上有明显的优势,该模型对于安全、高效的打击车险欺诈行为具有比较高的实用价值。对于我国车险行业的健康发展、我国诚信体系的建立具有积极意义。
一、研究背景
1.1 保险的起源
人类社会在发展过程中不断遭受自然灾害和危机事故的风险。在与灾害风险对抗的过程中,人们也在寻找减少损失的方式和方法,也就形成保险的雏形。春秋时期,著名的思想家孔子在《礼记·王制》中的“三年耕,必有一年之食”表示,用丰收年份的余粮抵御歉收年份不足,这带有保险思想的雏形。古代埃及石匠采取互助基金相互救助的方式,向集体中的每一个人收取定量的资金用于帮扶死于意外事故的工人,这也是保险意识的启蒙。现代保险业开始于海上保险,1384年世界上第一张保单出现在佛罗伦萨,这张保单写明保险标的、保险责任,如“海滩事故、火灾、沉没等因素造成的意外损失”,具有了现代财产保险的雏形。
1.2 保险的定义
保险是指投保人根据合同约定,向保险人支付保险费,保险人对于合同约定的可能发生的事故因其发生所造成的财产损失承担赔偿保险金责任,或者被保险人死亡、伤残、疾病或者达到合同约定的年龄、期限等条件时承担给付保险金责任的商业保险行为。
保险是为社会经济发展和人民群众稳定生活提供风险保障重要工具,得益于服务领域的不断拓宽和不断满足社会日益增长的保险服务需求,我国保险业实现快速发展。保险业作为传统的金融行业,除了在防范化解风险方面发挥了重大的作用,在帮助人民群众实现个人财富资产保值、增值方面也取得了重大成效。
车险作为我国财险业的第一大险种,重要性不言而喻。在我国财险市场中,机动车辆保险一直占据了财险市场份额的一半以上,机动车辆保险的发展情况在很大程度上影响着整个财险市场的发展。机动车辆保险是与人民群众利益关系密切的险种,长期以来是财险领域第一大业务。
1.3 车辆保险概况
机动车辆保险是指车辆所有者在遭受意外事故时对于财产损失与经济损失的一种补偿,以保障投保人和事故受害人正常的生活。
从汽车市场来看,2021年中国机动车保有量达3.95亿辆,较2020年增加了0.23亿辆,同比增长6.18%,其中汽车保有量达3.02亿辆,较2020年增加了0.21亿辆,同比增长7.47%。
图1 2015~2021年机动车及汽车保有量统计
2021年全国新注册登记机动车3674万辆,比2020年增加346万辆,增长10.38%;比2019年增加460万,增长14.31%。2021年全国新注册登记汽车2622万辆,比2020年增加198万辆,增长8.16%。
图2 2019~2021年全国新注册登记机动车统计
2021 年我国车险保费收入达 7773 亿元,占财险保费的 56.8%,车险保费仍是财险公司核心保费收入贡献,从保费收入和承保利润来看,都是财险公司基本盘。但是就目前车险市场情况来看,部分保险公司的车险业务盈利空间微乎其微,甚至要通过其他险种业务收入弥补车险亏损,只有部分经营车险的大型保险公司盈利。整体而言,车险市场的利润率普遍比较低。
图3 2010~2021年机动车辆保险保费
1.4 车险欺诈现状
2021年,中国保险行业的原保险保费收益累积已达到4.49 万亿,已成为世界第二大保险缴费最高的国家。虽然我国的保险业发展趋势欣欣向荣,然而保险欺诈现象却时有发生,保险损失的数额也逐年增加。
保险欺诈是指仅投保人、被保险人、保险受益人违反保险最大诚信原则,隐瞒保险标的的真实情况,利用双方信息不对称来骗取巨额保险金的行为。保险欺诈问题是我国保险经营主体长久以来共有的主要难题,存在一定的普遍性。同时保险欺诈是世界性问题,不管国家及地区保险业发不发达、社会诚信体系健不健全,都不同比例地客观存在。
机动车辆保险欺诈是保险双方订立了机动车保险合同,任何与保险合同有利益关系的人,通过各种手段获取超额保险金的行为。机动车辆保险欺诈涉及的主体较多,在机动车辆保险的承保、出险、报案、理赔过程中涉及到众多主体,而这些主体都有可能实施欺诈行为。一是和车险合同的订立有关的主体,如投保人、被保险人等投保方,保险公司相关人员和保险代理人等;第二是与车辆维修和人伤鉴定、救助有关的主体,如汽车维修厂、医院等医疗机构、司法鉴定机构;第三是与处理道路交通事故有关的主体,如警察等。
车险欺诈是属于保险欺诈的一个重灾区,车险欺诈渗漏在保险欺诈中占比高达80%,涉案金额保守估计每年高达200亿元。车险欺诈的类型复杂,涉及整个汽车行业的多个主体,尤其是投保方实施的车险欺诈行为,尤其突出。车险欺诈每年都会给保险公司带来巨额损失,而且由于信息不对称、案件复杂性和隐蔽性以及作案手法愈加专业化和团队化等,给保险公司在进行车险反欺诈过程中造成了很大的困难。
1.5 车险欺诈的危害
长期以来,车险欺诈都是保险业的严重问题,车险反欺诈也是财险公司的关键任务之一。车险的欺诈行为一方面侵害了诚实的保险消费者的利益、降低保险公司的效益,另一方面直接提升了车险产品的价格,致使保险行业形象受损,破坏车险市场秩序。车险欺诈行为又往往伴随其他的犯罪行为的发生。车险欺诈案件的泛滥会对社会风气有着严重影响,倘若无法有效打击车险欺诈行为,社会上将有更多的人们被利益驱使进行车险欺诈。最后,那些故意制造事故进行欺诈的行为也影响到了道路交通安全,扰乱了社会秩序,对我国诚信体系建设乃至和谐社会产生不利影响。
1.6 机器学习在车险反欺诈中的应用
随着信息传播技术的发展,车险欺诈风险日益凸显,并呈现专业化、团伙化等特征。为了规制欺诈行为,保险业对新的技术渴求迫在眉睫,机器学习是一个非常合适的手段。
机器学习可以通过对保险公司以往的保险理赔经验数据进行分析,探究机器学习技术在保险公司反欺诈过程中作用,一方面可以为现有的保险反欺诈理论研究提供实证分析层面上的数据支撑,另一方面也能为保险公司提高自身反欺诈手段提供一些借鉴。
具体来说,可以使用机器学习技术学习历史数据,训练建立模型总结欺诈规律。当保险公司使用此模型时,只需要向模型输入新的案件信息,便可以对该案件进行分析,对高风险的案件其进行预警,从而识别出高风险的案件。特别是对于一些特征不明显的案件,结合理赔人员的现场调查和后续跟进,在投保方索赔后便可识别出欺诈行为,尽可能减少损失。
二、理论基础
2.1 信息不对称
信息不对称理论的概念是在市场交易中,交易双方所获取的信息有差异,交易双方对另一方的了解不够充分,掌握信息的多少决定着双方地位,如此导致双方地位的不平等。信息不对称在各个市场普遍存在。在保险市场中,市场的实际信息与完全竞争性市场存在较大差距。一方面,保险标的有投保方控制,保险人对标的了解不够。另一方面,投保人对保险人的相关情况也了解不充分,如此便产生了信息不对称。
2.1.1 信息不对称和道德风险
本文的主要研究目标是车险反欺诈,因此只对事后道德风险(投保方投保后)进行研究。道德风险是指投保人的个人行为随着保险保证而发生变化,隐藏了投保人的各种行为,防灾防损工作做的不到位,甚至故意制造事故,造成了较高的风险。签订了保险合同后,对于保险人而言,他可以确定被保险人的风险类型,但不能有效观察到投保人在投保后的行为。车险合同订立中存在着多主体的信息不对称。比如保险代理人、事故处理单位等主体。在机动车辆保险中,保险合同涉及多方关系主体,比如保险代理人、监管部门、汽修厂等。
车险的各个主体之间的信息不对称,都会增加保险人获取正确信息的难度,导致欺诈行为的产生。机动车辆保险的索赔可以分为两种类型,第一,事故不涉及第三方的赔偿,因此在出险时,投保方可以请求保险人或委托汽修厂代为索赔。当车损较大时,保险公司会进行现场查勘取证。而在机动车在定损中心和交付汽车修理厂的过程中会产生多方主体信息不对称致使车险欺诈行为的产生,例如夸大维修费用,多方主体勾结骗取保险金。第二,事故涉及到第三方的人身和财产时,主体又增加了第三方、事故处理部门和医疗机构,如此又会产生第三方受伤程度、财产损失费用和相关医疗费用的信息不对称。诸多方面的信息不对称都会增加投保方的道德风险,引起车险欺诈行为。
2.1.2 车险欺诈对车险保费的影响
首先我们研究车险欺诈的影响,投保方进行投保,机动车出险概率为P,不出险时机动车的价值为,出险时机动车价值受损为,投保人的期望收入可得 ,投保人投保保险,保费为K,保险金额为U,则投保方参加保险后收入为
若没有保险欺诈,保险公司的利润为保费收入-正常保险金支出R=K-PU
若保险公司设置公平保费(无附加费率),则得保费K=PU
若将欺诈情况考虑在内,欺诈的概率为F,诚实的概率为1-F,则保险公司的利润为保费收入-正常保险金支出-欺诈额外支出R=K-PU-FU
此时保费K=PU+FU,欺诈的概率F 越大,保险费K 越大,因此保险欺诈的成本分摊到所有的被保险人中,所以诚实的投保方所付出的保费成本将变高。
2.1.3 欺诈识别水平对车险欺诈的影响
构建机动车保险欺诈博弈模型。博弈阶段,投保人可以选择诚实或保险欺诈。车险投保方诚实投保收益为,欺诈收益为, 则投保方的欺诈是不经济的。假设投保方是理性人,那么投保方的欺诈行为将会减少。接下来研究车险欺诈和保险公司欺诈识别概率V 的关系。假定车主投保机动车保险,下列分为投保方欺诈和诚实两种情况。
投保方诚实投保的收益为:,假设投保方采取保险欺诈,V 为保险欺诈被识别的概率,C 为保险欺诈的成本。因此投保方欺诈带来的收益为
由此可得,一方面保险费的K 不能随意增加,这将会影响到投保方的选择,另一方面,若 时,车险欺诈存在将会导致保险人的成本增加、赔付率增加,进而影响保险公司的财务稳定。因此提高保险欺诈的识别概率V,使得投保方采取欺诈的收益降低,致使,可以让投保方减少车险欺诈的行为,从而降低保费K,吸引更多的诚实投保方入场。在此过程中,保险公司灵活采用机器学习反欺诈模型,可以大大提高欺诈识别的速度,还能提高识别的准确率V,让保险欺诈无处遁形。因此,在未来,准确把握时代趋势,将机器学习技术引入机动车保险反欺诈体系之中提高识别效率是可行的。
2.2 不完全合约
完全合约是合约当事人可以完全预料合约期内可能发生的情况,且当事人自觉遵守双方的合约条款,合约是完备的且没有交易成本;当双方的合约产生争议时,法院作为第三方可以进行强制执行。而不完全合约则是指由于个人的有限理性、外部环境的复杂性,合约双方不可能制定成完备的合约。
施瓦茨提出了合约中信息不可获得的一种情况:合约双方获取信息的成本超过了获取信息的收益。因此,不完全合约的产生就是当合同的条款中要求合同双方当事人以无法获得的信息为判断基础。
在以前的机动车市场中,受限于各类数据采集技术,被保险人的行为信息的获取成本较高,因此此类信息属于不可得。不完全合约的基础是可观测但不可证实,在车险中,保险公司无法重现欺诈现场。而第三方机构因为无法获取信息而证实欺诈行为。不完全合约理论不考虑再谈判的非效率,而是选择最小化事前非效率的合约结构。法院对于保险人提交的疑似案件,也无法重新还原事故先现场。但在车险反欺诈的博弈中,大多投保人投保车险不是一次性的,而是逐年续保的。因此克瑞普斯的理论是适用的。他认为在不完全合约的条件下,长期存在交易者可以让声誉发挥作用。其他交易者可以观测到他的行为。如果借助完善的车险共享信息平台,在机动车保险市场中,若一个投保人的保险欺诈会被精准识别,他向其他保险人投保时,便可以受到应有的惩罚,例如调整费率。
图4 机动车保险的不完全性导致保险欺诈
若合同双方诚实履行合约的收益远远低于违约的收益,或者履约成本较高,此时合约双方便可能发生违约行为。在车险的合约中,投保方对机动车的相关信息掌握较多,但保险人由于无法重现现场所以对事故信息判断不清。同时投保方若认为保险公司的识别率较低,或保险公司的举证具有一定难度,这又促进了投保方欺诈的机会。这也符合经济理性人的经济学假设、保险合同的赔付金额的待定性,基于保险欺诈很大的空间。赔付过程中对合约监督的障碍:面对被保险人的索赔,有一些保险公司难以短时间内判定的情况,但是举证较为困难,保险公司很难拒绝赔付,这其中蕴含着较多保险欺诈的机会,例如故意造成保险事故,不施救,不积极进行防灾防损。这些欺诈因保险公司的识别能力效率差、准确率低而充分的暴露出来,同时使投保方保险欺诈的效用变高,这使得机动车保险欺诈的可能性大大增加。真实世界的合约基本都是不完全合约。上文分析到,如果机动车保险可以建立完善的信息共享平台,那么投保人的欺诈行为将会被记录,此时的续保或在其他保险公司投保时,保险人就可以采取惩罚措施。
2.3 效用理论
风险、效用作为经济学的基本概念,可以分析车险欺诈行为。期望效用理论下的车险欺诈行为是以投保方的风险偏好为支撑进行效用最大化的行为,他考虑了主体的风险态度,设效用函数u(x)满足冯诺伊曼效用函数,则个体的风险偏好与效用的关系如下表所示。
表1 风险偏好
投保人在实施保险欺诈时一定要经历一个层层递进的不确定过程,不确定性是指“行动的结果总是被置于某种概率之下”。在决策时,有的投保方选择欺诈,有的投保方选择诚实,原因在与同样的客观风险给不同偏好主体带来的效用不等。
车险投保方的效用函数为u(x)=P×U(a)+(1-P)×U(b),2020 车险综合改革前,机动车保险协会规定车险的绝对免赔额500 元,当保险金额扣除免赔额500 元后,被保险人获得的赔付减少,其效用降低。被保险人为了维持效用不变,就有可能将损失夸大,形成夸大损失的车险欺诈行为。2020 车险综合改革后,机动车辆保险的不计免赔附加险,加入到主险中,这意味着,出险赔付依然不会扣除免赔额,假设在保费不变的情况下,投保方的效用提升,理论上可以减少保险欺诈。
NCD 系数,上文中我们提到投保方的投保一般是逐年连续的,而NCD 系数的设计就是给予安全驾驶者无赔款优待,对于出险的投保方给予费率惩罚。设不实施欺诈行为保费为,实施欺诈行为后保费为,则设保费差,且C>0 则投保方在此规则下选择实施车险欺诈的成本将会增加C,会降低投保方的欺诈效用。以风险偏好为例,加入无赔款优待会让投保方欺诈效用降低。
2.4 决策树
决策树(Decision Tree)是一种最常见、最基础的机器学习方法。决策树基于特征对数据实例按照条件不断进行划分,最终达到分类或者回归的目的。
决策树通过树形结构来对数据样本进行分类。一棵完整的结构树由结点和有向边构成,其中内部结点表示特征,叶子结点表示类别,决策树从根结点开始,选取数据中某一特征,根据特征取值对实例进行分配,通过不断地选取特征进行实例分配,决策树可以达到对所有实例进行分类的目的。
图5 决策树
2.4.1 基本原理
可以将决策树看作一组if-then规则的集合,将决策树的根结点到叶子结点的每一条路径都构建一条规则,路径中的内部结点特征代表规则条件,而叶子结点表示这条规则的结论。一棵决策树所有的if-then规则都互斥且完备。if-then规则本质上就是一组分类规则,决策树学习的目标就是基于数据归纳出这样的一组规则。
也可以从条件概率分布的角度来理解决策树。假设将特征空间划分为互不相交的区域,且每个区域定义的类的概率分布就构成了一个条件概率分布。决策树所表示的条件概率分布是由各个区域给定类的条件概率分布组成的。
完整的决策树模型包括特征选择、决策树构建和决策树剪枝三个大的方面。其中特征选择和决策树构建对应着决策树的生成算法,决策树剪枝对应着决策树剪枝算法。
2.4.2 特征选择
为了能够构建一棵分类性能良好的决策树,我们需要从训练数据集中不断选取具有分类能力的特征。
决策树的特征选择就是从数据集中选择具备较强分类能力的特征来对数据集进行划分。那么什么样的特征才是具备较强分类能力的特征呢?或者说,我们应该按照什么标准来选取最优特征?
在决策树模型中,有三种方式来选取最优特征,包括信息增益、信息增益比和基尼指数。
假设当前样本数据集𝐷中第𝑘个类所占比例为 (𝑘=1, 2,⋯,𝐶),那么该样本数据集的熵可定义为:
1、信息增益
信息增益(Information Gain)则定义为由于得到特征𝑋的信息而使得类𝑌的信息不确定性减少的程度,即信息增益是一种描述目标类别确定性增加的量,特征的信息增益越大,目标类的确定性越强。
假设训练数据集𝐷的经验熵为E(𝐷),给定特征𝐴的条件下𝐷的经验条件熵为E(𝐷|𝐴),那么信息增益可定义为经验熵E(𝐷)与经验条件熵E(𝐷|𝐴)之差:
ID3算法的全称为Iterative Dichotomiser 3,即3代迭代二叉树。其核心就是基于信息增益递归地选择最优特征构造决策树。
2、信息增益比
特征𝐴对数据集𝐷的信息增益比可以定义为其信息增益𝑔(𝐷,𝐴)与数据集𝐷关于特征𝐴取值的熵(𝐷)的比值:
C4.5算法在构造决策树时使用信息增益比作为特征选择方法。
3、基尼系数
基尼指数是针对概率分布而言的,假设样本有𝐾个类,样本属于第𝑘类的概率为,则该样本类别概率分布的基尼指数可定义为:
对于给定训练数据集𝐷,是属于第𝑘类样本的集合,则该训练数据集的基尼指数可定义为:
CART算法的全称为分类与回归树(Classification and Regression Tree),顾名思义,CART算法既可以用于分类,也可以用于回归,这是CART算法与ID3和C4.5的主要区别之一。CART算法的特征选择方法基于基尼指数。
2.4.3 决策树剪枝
一个完整的决策树算法,除决策树生成算法外,还包括决策树剪枝算法。决策树生成算法递归地产生决策树,生成的决策树大而全,但很容易导致过拟合现象。
决策树剪枝(Pruning)则是对已生成的决策树进行简化的过程,通过对已生成的决策树剪掉一些子树或者叶子结点,并将其根结点或父结点作为新的叶子结点,从而达到简化决策树的目的。
决策树剪枝一般包括两种方法:预剪枝(Pre-pruning)和后剪枝(Post-pruning)。
预剪枝就是在决策树生成过程中提前停止树的增长的一种剪枝算法。其主要思路是在决策树结点分裂之前,计算当前结点划分能否提升模型泛化能力,如果不能,则决策树在该结点停止生长。预剪枝方法直接,算法简单高效,适用于大规模求解问题。但预剪枝提前停止树生长的方法,也一定程度上存在欠拟合的风险,导致决策树生长不够完全。
在实际应用中还是以后剪枝方法为主。后剪枝主要通过极小化决策树整体损失函数来实现。
2.5 集成学习
集成学习(Ensemble Learning)是指避免某一组模型参数的固有缺陷,将多个弱学习器组合成一个强学习器,这个强学习器能取所有弱学习器之所长,达到相对的最佳性能的一种学习范式。
集成学习主要包括Boosting和Bagging两种学习框架。
图6 集成学习
2.5.1 Bagging学习框架
Bagging通过对数据集自身采样来获取不同子集,并且对每个子集训练基学习器来进行模型集成,是一种并行化的集成学习方法。
随机森林
随机森林(Random Forest)是Bagging学习框架的一个典型代表,通过样本和特征的两个随机性来构造基学习器。随机森林以决策树为基学习器进行集成,进一步在决策树训练过程中引入了随机选择数据特征的方法。因为构建模型过程中的这种随机性,并且有多棵决策树,故而得名随机森林。作为并行式集成学习方法最典型的代表框架,其核心概念在于自助采样(Bootstrap Sampling)。
算法流程如下:
① 假设有𝑀个样本,有放回地随机选择𝑀个样本(每次随机选择一个放回后继续选)。(第一个随机性)
② 假设样本有𝑁个特征,在决策时的每个结点需要分裂时,随机从这𝑁个特征中选取𝑛个特征,满足𝑛<<𝑁,从这𝑛个特征中选择特征进行结点分裂。(第二个随机性)
③ 基于抽样的𝑀个样本𝑛个特征按照结点分裂的方式构建决策树。
按照 ① ~ ③ 步构建大量决策树组成随机森林,然后将每棵树的结果进行综合(分类使用投票法,回归可使用均值法)。
图7 随机森林
随机森林模型通过特征划分过程来计算评估各个因子特征的重要性。一般是使用袋外数据观测量对特征向量进行重要性度量。抽取样本之后没有被选中的样本称为“袋外数据(Out of Bag, OOB)”。OOB具有验证集的特性,因此OOB误差被用作验证随机森林G的泛化误差。使用OOB对特征向量进行重要性度量的方法是对特征在OOB样本上的重新排序,通过计算特征的随机排列重要性(Permutation Importance)实现特征排序。最后,所有树上的平均值即为每个特征的重要性分数。
算法流程如下:
若样本的原始集合为D,其中N为样本总数,表示第i个样本的特征集合,表示第i个样品的类别属性,
① 计算袋外数据(OOB)误差,如下式所示:
其中为只包括了是OOB的决策树。
② 计算特征的随机排列重要性,在OOB样本上用随机重新排列的替换原始特征OOB样本中的构成新的OOB样本。记为决策树得到特征变量的重要性:
其中为重新随机排列的OOB样本的误差。
③ 所有树的平均值即为每个特征的重要性分数:
2.5.2 Boosting学习框架
Boosting是一种将弱学习器提升为强学习器的算法,所以也叫提升算法。
以分类问题为例,给定一个训练数据集,训练弱分类器要比训练强分类器相对容易很多,从第一个弱分类器开始,Boosting通过训练多个弱分类器,并在训练过程中不断改变训练样本的概率分布,使得每次训练时算法都会更加关注上一个弱分类器的错误。通过组合多个这样的弱分类器,便可以获得一个接近相对完美的强分类器。
1、GDBT算法
提升是一类将弱学习器提升为强学习器的算法总称。提升树(Boosting Tree)就是弱学习器为决策树的提升方法。
GBDT的全称为梯度提升决策树(Gradient Boosting Decision Tree),其基模型(弱学习器)为CART决策树,针对分类问题基模型为二叉分类树,对应梯度提升模型就叫GBDT;针对回归问题基模型为二叉回归树,对应的梯度提升模型叫作GBRT(Gradient Boosting Regression Tree)。
算法流程如下:
- 初始化提升树模型:
- 对于m=1,…,M(M为决策树棵树)
· 计算损失函数的负梯度在当前模型的值,并将它作为残差的估计值:
· 将上一步得到的残差作为样本新的真实值,并将数据(, ),𝑖=1, 2,⋯,𝑁作为下一棵树的训练数据,得到一棵新的回归树(𝑥),其对应的叶子结点区域为,𝑗=1, 2,⋯,𝐽。其中𝐽为每棵树的叶子结点的个数。
· 对叶子区域𝑗=1, 2,⋯,𝐽计算最佳拟合值:
· 更新提升树模型:
③ 得到最终梯度提升树:
2、CatBoost算法
CatBoost是俄罗斯搜索引擎巨头Yandex于2017年开源的一款GBDT计算框架,因其能够高效处理数据中的类别特征而取名为CatBoost(Categorical + Boosting)。
类别型特征在结构化数据集中是非常普遍的特征。这类特征区别于常见的数值型特征,它是一个离散的集合,比如性别(男、女)、学历(本科、硕士、博士等)、地点(杭州、北京、上海等),有时候我们还会碰到几十上百个取值的类别特征。
对于类别型特征,最直接的方法就是硬编码,即直接对类别特征进行数值映射,有多少类别取值就映射多少数值。这种硬编码方式简单快捷,但仅在类别特征内部取值是有序的情况才好使用,即类别特征取值存在明显的顺序性,比如学历特征取值为高中、本科、硕士和博士,各学历之间存在明显的顺序关系。
最通用的方法就是one-hot编码,如果类别型特征取值数目较少,one-hot编码不失为一种比较高效的方法。但当类别型特征取值数目较多时,采用one-hot编码就不划算了,它会产生大量冗余特征,试想一下一个类别数目为100个的类别型特征,one-hot编码会产生100个稀疏特征,茫茫0海中的一个1,这对训练算法而言会是不小的负担。
另一种常用的方法则是目标变量统计(Target Statistics,TS),TS计算每个类别对于目标变量的期望值并将类别特征转换为新的数值特征。CatBoost在常规TS方法上做了改进。
CatBoost属于GBDT算法范畴,除了符合GBDT算法特征之外,其自身的理论特色,包括用于处理类别变量的目标变量统计、特征组合和排序提升算法等。
(1) 目标变量统计
CatBoost算法设计一个最大的目的就是要更好地处理GBDT特征中的类别特征。常规的TS方法最直接的做法就是将类别对应的标签平均值进行替换。
在GBDT构建决策树的过程中,替换后的类别标签平均值作为结点分裂的标准,这种做法也称greedy target-based statistics,简称greedy TS,其计算公式可表示为:
CatBoost对greedy TS方法的改进就是添加先验分布项,用以减少噪声和低频类别型数据对数据分布的影响。改进后的greedy TS方法的数学表达如下:
(2) 特征组合
CatBoost另一种对类别特征处理方法的创新在于可以将任意几个类别型特征组合为新的特征。
比如用户ID和广告主题之间的联合信息,如果单纯地将二者转换为数值特征,二者之间的联合信息可能就会丢失。CatBoost则考虑将这两个类别特征组合成新的类别特征。但组合的数量会随着数据集中类别型特征的数量呈指数级增长,因此不可能考虑所有组合。
所以,CatBoost在构建新的分裂结点时,会采用贪心的策略考虑特征之间的组合。CatBoost将当前树的所有组合、类别型特征与数据集中的所有类别型特征相结合,并将新的类别组合型特征动态地转换为数值型特征。
(3) 排序提升算法
CatBoost另一大创新点在于提出使用排序提升(Ordered Boosting)方法解决预测偏移(Prediction Shift)问题。所谓预测偏移,即训练样本的分布与测试样本𝑋的分布𝐹(𝑋)|𝑋之间产生的偏移。
假设前一轮训练得到强学习器为,当前损失函数为𝐿(),则本轮迭代要拟合的弱学习器为:
梯度表示为:
近似数据表达为:
最终预测偏移的链式传递为:梯度的条件分布和测试数据的分布存在偏移;的数据近似估计与梯度表达式之间存在偏移;预测偏移会影响的泛化性能。
CatBoost采用基于ordered TS的排序提升方法来处理预测偏移问题。
对于训练数据,排序提升先生成一个随机排列𝜎,随机排列用于之后的模型训练,即在训练第个模型时,使用排列中前𝑖个样本进行训练。在迭代过程中,为得到第𝑗个样本的残差估计值,使用第个模型进行估计。但这种训练𝑛个模型的做法会大大增加内存消耗和时间复杂度,可操作性不强。
因此,CatBoost在以决策树为基学习器的梯度提升算法的基础上,对这种排序提升算法进行了改进。
图8 排序提升实例
算法流程如下:
输入:
:训练样本;
I:树的棵树
:[1,n]的随机序列;
:初始化模型
对于第t棵树:
对于第i个样本:
输出:
模型
CatBoost对训练集产生个独立随机序列用来定义和评估树结构的分裂,用来计算分裂所得到的叶子结点的值。CatBoost采用对称树作为基学习器,对称意味着在树的同一层,其分裂标准都相同。对称树具有平衡、不易过拟合并能够大大缩短测试时间的特点。
2.6 K折交叉验证
交叉验证是用来验证分类器性能的一种统计分析方法。基本思想是将原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此作为评价分类器的性能指标。
K 折交叉验证将原始数据分成K 组,不重复地抽取1 个子集作为一次验证集,将其余的K-1组子集数据组合在一起作为训练集。
图9 K折交叉验证
通过分组训练会得到K个模型,用这K个模型验证集准确率平均数作为K 折交叉验证分类器的性能指标。K折交叉验证能避免过学习和欠学习状态的发生,最后得到的结果也比较具有说服性。
2.7 RF-CatBoost投保反欺诈检测模型
结合随机森林较优的特征选择能力和CatBoost较强的分类能力,本文提出了一种新的投保反欺诈检测模型 — RF-CatBoost。
图10 RF-CatBoost模型
检测模型主要分为两个部分:RF特征选择和CatBoost分类决策,即首先采用RF对经过预处理后投保数据的特征进行筛选,然后将筛选出的特征进行加工,最后送入CatBoost中进行反欺诈检测。RF-CatBoost模型的详细过程如下:
阶段一:特征选择
使用随机森林将所有特征根据重要性分数从高到低进行排列,提取重要的特征。
构造组合特征,更新入数据集,并且去除无意义的和重复的特征,为CatBoost训练做准备。
阶段二:反欺诈检测
通过新构造的数据集构建CatBoost反欺诈检测模型,对测试数据集进行反欺诈检测,并输出检测结果。
2.8 性能评价
2.8.1 混淆矩阵
以达到使得正确率或错误率能够甄别不同种类的样本的错误分类程度在数据分类中的目标,使用以混淆矩阵为工具来创建的方法。用该矩阵行中的数值来表示分类数据模型的估计类别,列中的数值表示样本数据的真正类型。混淆矩阵中将各列数据相加的结果即为模型对全部样本中进行预测后所得结果中相应类别的真实样本数量;将混淆矩阵中将各行数据相加的结果即为模型对全部样本中进行预测后所得结果中相应类别的真实样本数量。
对于二元分类问题,通常将两类研究对象分别记成正类和负类。本文的问题是检测保险数据是否为欺诈数据,因此欺诈数据被记录为正,非欺诈数据被记录为负。
表2 二分类问题的混淆矩阵
对于这一问题,样本的标记值与模型预测的结果之间存在下述几种情况:
TP:样本实际类型是正,模型预测正确,样本经预测后结果是正,即类型真实。
FN:样本的真实类别为正,模型预测错误。预测样本为负,即假负类别。
FP:样本的真实类别为负,模型预测错误,样本预测为正,即假正类别。
TN:样本的真实类别为负,模型预测是正确的,样本预测为负,即真负类别。
召回率是指模型预测正确的样本在所有正例样本中的比例,表达式见下方:
2.8.2 ROC曲线
ROC 曲线(Receiver Operating Characteristic Curve),即受试者工作特征曲线。是反映敏感性和特异性连续变量的综合指标。ROC曲线的横坐标为假正例率(False Positive Rate,FPR),即被模型预测为正的样本类然而样本实际为负类样本数在全部负类样本当中的数量占比。纵坐标为真正例率(True Positive Rate,TPR),即召回率。
二分类问题中,模型为预测每一个样本的类型会界定一个阈值。如果模型输出的某一个样本结果比阈值要大,则该样本为正,反之则为负。若将阈值减少,自然能够预测出数量更多的正类样本,模型也将具有更高的真实类率,然而也会有更多实际为负的样本被预测为正,进而导致模型假正类比率就会得到提升。以此为基础,就需要引入ROC 曲线来描述模型分类性能随阈值变化的过程,进一步对模型进行全局评价。
图11 ROC曲线
2.8.3 AUC参数
ROC曲线下面积越大,判断准确性越高。AUC(Area Under Curve)则是ROC的积分,也就是ROC的曲线下面积,通常AUC为0.5 是最差的模型性能,AUC > 0.8 可以判断该模型性能较好,AUC = 1 是模型的最佳性能。
三、实验分析
3.1 实验环境
本次实验使用系统版本Windows 10 专业版的笔记本计算机,基于PyCharm 2021.3.1 (Community Edition)软件,进行投保反欺诈模型的程序调试和编写。编程语言为Python,其版本为3.10。
3.2 实验数据
由于国内保险公司的数据信息并不开源,因此本研究的数据集是从网络获取的车险仿真业务数据。数据集共1000 条数据(其中已划分训练数据集700条,测试数据集300条)。原始数据集中有40个变量,目标变量为是否欺诈(欺诈1和非欺诈0),本训练数据集欺诈数据比例约占25.9%。其中40个维度的数据集为不同类别的数据信息,比如车辆的详细信息:汽车品牌、汽车型号等,保单的相关信息:保单编号、保险绑定日期等,事故相关信息:出事所在的具体位置、碰撞类型等,损失及赔偿信息:整体索赔金额、伤害索赔金额等。数据集有日期型变量、名义型变量、数值型变量。
表3 字段说明 表4 字段枚举值(包含训练数据集和测试数据集)
3.3 实验过程
步骤一:数据预处理
读取数据集,对数据集字段进行格式标准化,
· 时间字段,统一日期显示格式,区分年、月、日;
· 位置字段,区分大小位置信息,类似地点、街道等。
步骤二:RF-CatBoost模型处理
- 特征重要性排序
通过随机森林的特征选择,采用对特征进行重要性度量的方法,根据得到的该特征集的排序结果进行特征选择。筛选出预处理后数据中最能表征其欺诈属性的特征,用于训练CatBoost模型。
特征重要性排序结果如下:
图12 特征重要性排序
- 特征工程
根据特征重要性排序,构造组合特征。本次实验根据特征的重要性,
· 选择日期类特征,如保险绑定日期、出险日期
构造保险绑定时长、保险绑定日期与出险日期时间差;
· 选择金额类特征,如整体索赔金额、伤害索赔金额、财产索赔金额、汽车索赔金额
考虑各个部分占总体的比重更能反映总体的构成,所以构造各索赔金额在整体金额中占比;
· 选择事故类特征,如出险类型、碰撞类型、身体伤害、是否有财产损失、事故严重程度
将其两两组合构造为新的综合特征。
最后,剔除无意义、重复字段。
图13 构造组合特征
- CatBoost模型训练
使用CatBoost模型进行欺诈检测训练,进行五折交叉验证,根据性能指标调整模型参数,并对测试数据集进行欺诈预测。取最佳性能模型的五次预测平均值,输出预测结果。
经过多次实验对比后,设定了CatBoost的参数,最终参数配置如下:
random_state,随机数种子:固定为2022,使每次运行代码的结果相同
iterations,最大决策树数目:设置为1000
learning_rate,学习率:设置为0.005
min_data_in_leaf,叶子节点最小样本数:设置为3
l2_leaf_reg,代价函数的L2正则化项的系数:设置为0.5
scale_pos_weight,二分类任务中1类的权重:设置为2.5。
metric_period,计算优化评估值的频率:设置为100
3.4 对比分析
本次实验将CatBoost模型作为RF-CatBoost模型的对比方法,验证该方法在分类精度和预测性能方面的表现。
在实验时,进行了相同的数据预处理和CatBoost模型参数配置。
对比结果如下:(取五次预测平均值,可视为用户欺诈的概率)
(a) RF-CatBoost模型 (b) CatBoost模型
表5 检测结果
上图展示了两种模型的检测结果(篇幅限制,展示前15条和后15条),更多结果可见附件Submission文档。
在模型性能评价上,使用AUC参数和ROC曲线进行分析。由于使用了五折交叉验证,将各模型在每次训练数据集上运行的AUC值,和5次AUC均值作为各模型的最终性能指标值。
表6 模型AUC参数对比
相应的,根据实验中的AUC均值画出ROC曲线,直观得比较各模型的性能差异。
图14 模型ROC曲线对比
从图表中可以看出,在5次训练后,与CatBoost模型相比,RF-CatBoost模型的AUC均值更高。对比情况显示了RF-CatBoost模型具有更好的预测性能和泛化能力,说明了RF-CatBoost模型在投保反欺诈检测领域有着明显的应用前景。
四、结论与展望
4.1 总结与建议
本文主要研究了一种基于RF-CatBoost模型的投保反欺诈检测算法。讨论了不同的机器学习算法的预测性能,通过比对AUC 分数、ROC 曲线图等模型评估指标,证实RF-CatBoost相比于目前其他主流的机器学习算法,更大的优势在于对投保特征的挖掘。该模型通过深入探索特征与投保欺诈的关系,以及特征的重要性排序,极大地提高预测模型的精准性。如果加以有效利用,可以给予车险欺诈行为有效打击。机器学习的高效率可以扩大案件调查范围,适应不断更迭的车险欺诈形式,也可以减少理赔人员的重复工作。
通过本文的梳理总结,结合国内外机器学习保险反欺诈案例经验,本文为推动机器学习技术助力我国车险反欺诈体系发展,提出如下建议。
4.1.1 扩大数据维度,保证数据质量
保险公司应逐步完善对于客户投保数据和理赔数据的收集,保证各方资料完整度。并通过历史反欺诈经验不断扩充数据维度,增加欺诈识别指标。保险行业在建立数据反欺诈模型时,也应保证数据的质量。例如报案和理赔时间点完全一致的情况在车险业务中几乎不可能出现,而保险公司若监管不力将会造成的数据真实度有所下降,数据质量下降又直接影响到机器学习模型的识别水平。未来的车险欺诈形式纷繁复杂,只有多维度、真实且有保证的数据,才能充分挖掘出欺诈形式的特征,从而正确识别欺诈行为。
4.1.2 各方通力合作,促进数据共享
我国的保险行业的数据资源非常庞大,大量的数据资源给予了机器学习反欺诈巨大的潜力。国内已经有保信车险信息共享平台,提供给各保险公司应用反欺诈,但是国内尚未形成一个较为完善的数据共享机制,一方面给了欺诈人员多公司欺诈的可乘之机,另一方面也给各公司机器学习反欺诈创造了一定困难。此外,我们应以政府为主导,建立完整保险行业数据共享机制,例如积极构建包括车险行业在内的欺诈信息共享平台,建立全行业车险欺诈大数据库,各保险公司可以将车险欺诈案件关键信息上传至信息共享平台,将客户信息等涉及行业隐私的相关信息保留或做一定的处理。政府部门应带头成立保险公司、交警部门、相关专家、组成的联合反欺诈组织,提高欺诈识别率。车险行业在未来的发展要以大数据、人工智能技术的推广应用为驱动力,充分适应科技赋能背景下数据资源的互通互用,以增加效益、节约成本为目的,在充分考虑数据安全性的前提下,以政府的力量为主导,充分依靠社会公共力量,来促进整个车险行业向着良好的趋势发展。
4.1.3 加大监管力度,防范新技术风险
机器学习反欺诈模型的出现,也会增加使用过程中的不确定因素,导致机器学习新技术风险的产生,因此需要保险监管层面提出要求。第一,明确机器学习反欺诈模型的责任主体,法律应更加细致的制定相关法律法规,对模型开发和使用者作出相应的限制和责任界限划定。第二,保险公司应建立机器学习反欺诈系统的监控体系,对于可能发生的故障应建立应对措施。防范机器学习模型的系统出险重大技术性失误,使保险公司造成损失。第三,机器学习的最重要的基础就是数据,数据的最直接的来源就是车主的各种信息,例如车主的人脸信息,声纹信息,位置信息等等,这些信息通过不同的机器学习技术建立了大量的模型,应用到保险反欺诈的不同环节中。国家和行业应完善机器学习数据获取监管体系,对投保方数据的保护,是机器学习助力反欺诈的一大前提。保险公司也应注重与第三方技术研发机构进行合作,抵御可能出现的网络数据安全风险。最后,政府应对维护保险行业网络安全给予政策支持,做到车险业务全链条风险自主可控,健康创新发展。
4.2 不足与展望
本文仍有许多不足之处,此次研究仅将特征重要度筛选、组合组合特征与分类模型相结合,未来可以尝试用不同的模型来建立一个组合模型,也可以考虑stacking 等模型融合技术,能够实现更高的准确率,或者也可以研究不同模型对组合模型的影响。
在处理重要特征方面,本文着重构造特定业务领域的组合特征,过程上有较强的主观性,模型的通用性还有待进一步加强。反欺诈模型的应用环境也是在不断地变化之中,需要不断地分析现有的反欺诈规则,以时间维度分析不同时间段规则的识别能力,根据数据分析结果调整相应的策略阈值。同时用户的信用信息也在不断地更新变化,已经建立好的模型同样需要跨时间维度来验证,不断地运用新的用户信用信息迭代模型,来保证模型的性能并稳固提高模型识别欺诈的能力。
机器学习在保险反欺诈的应用技术还有计算机视觉、自然语言处理、语音识别等多个方向,都可以巧妙挖掘在车险反欺诈中的价值。机动车保险的产业链条中不乏图像、文本等数据。经过训练,计算机视觉技术可以对车险定损中的关键信息进行处理分析,判断车辆的损失是否是欺诈行为,并可以和历史数据库进行对比,防止重复索赔。在定损环节,应用机器学习计算机视觉法可以实现快速定损,在简单案件中可以替代人工审核,提高客户理赔体验,这种技术为反欺诈提供了一种新思路。自然语言处理可以通过对客户语言的提取,生成文本信息。为反欺诈环节提供可用数据信息助力反欺诈。还有情绪识别技术,通过对个体的语音和面部表情的信息提取进行智能化判断。利用此技术可以探索出人们的微表情和动机,这是传统人工反欺诈无法做到的。
最后,原始数据中的结构化数据利用率还比较低,可以开发例如知识图谱、图像识别算法等手段,再与结构化数据模型相结合,进一步提高总体模型的反欺诈识别能力。
参考文献:
[1]. 鲁伟, 机器学习 公式推导与代码实现. 2022: 人民邮电出版社.
[2]. 智研观点, 2021年中国汽车保有量及驾驶人数量分析:汽车保有量达3.02亿辆,汽车驾驶人数量达4.44亿人, 2022.
[3]. Gulin, A.D.V.E., CatBoost:gradient boosting with categorical features support. 2018.
[4]. Gulin, L.P.G.G., CatBoost:unbiased boosting with categorical features. 2017.
[5]. Qi, M., LightGBM:A Highly Efficient Gradient Boosting Decision Tree. 2017.
[6]. Breiman, Random Forests. 2001.
[7]. Chen, T. and C. Guestrin. XGBoost: A Scalable Tree Boosting System. 2016. Ithaca: ACM.
[8]. 吴景泰与张育儒, 保险反欺诈识别模型研究. 全国流通经济, 2020(26): 第152-154页.
[9]. 东吴证券, 保险行业专题报告:车险综改回顾与展望,阶段改革目标达成, 2022.
[10]. 张健, 车联网数据在我国车险反欺诈中的可行性研究-反欺诈概况和难点, 2022, 中南财经政法大学.
[11]. 杨军, 反保险欺诈之对策与机制研究-反欺诈的意义. 湖北经济学院学报(人文社会科学版), 2018.
[12]. 熊冰冰, 机动车辆保险欺诈现象研究及风险防范. 中外企业文化, 2020(07): 第29-30页.
[13]. 焦清宇, 机器学习助力机动车辆保险反欺诈研究, 2022, 辽宁大学. 第 97页.
[14]. 汪学清等, 基于K折交叉验证的SVM隧道围岩分级判别. 矿冶工程, 2021. 41(06): 第126-128+133页.
[15]. 朱文广等, 基于K-折交叉验证和Sta…king融合的短期负荷预测. 电力科学与技术学报, 2021.
[16]. 夏弋松与靳文舟, 基于S-Catboost算法的短时公交客流预测及影响因子分析. 广西大学学报(自然科学版), 2021. 46(03): 第747-763页.
[17]. 刘兴跃, 基于保险公司视角的车险理赔反欺诈研究:以XD财险公司为例, 2017, 山东大学.
[18]. 姚锐等, 基于随机森林的局部放电特征提取和优选研究. 华北电力大学学报(自然科学版), 2021. 48(04): 第63-72页.
[19]. 周鹤鸣, 人工智能在保险反欺诈中的应用研究, 2022, 山东财经大学.
[20]. 刘诗音, 人工智能助力车险反欺诈研究, 2021, 辽宁大学. 第 47页.
[21]. 蒋萍, 路皓翔与刘振丙, 随机森林结合CatBoost的近红外光谱药品鉴别. 光谱学与光谱分析, 2022. 42(07): 第2148-2155页.
[22]. 周志华, 机器学习. 2016: 清华大学出版社.
[23]. 李航, 统计学习方法. 2019: 清华大学出版社.
[24]. 曹志辉, 机器学习在汽车金融反欺诈模型上的应用研究, 2019, 天津商业大学. 第 53页.
[25]. 黄镜霖, 基于集成学习的金融反欺诈模型. 电脑知识与技术, 2020. 16(01): 第216-219页.
发表回复