保险反欺诈距离人工智能还有多远?
保险欺诈与保险如影随形,近年来,其形态更向着多样化、复杂化、团体化和技术化演变,严重损害了善意的保险消费者和保险人的合法权益,也使保险作为社会稳定器和助推器的功能大打折扣。2019年6月,中国保险学会与金融壹账通联合发布《2019年中国保险行业智能风控白皮书》披露,我国车险行业的欺诈渗漏占理赔金额的比例至少达到20%,对应每年损失超过200亿元。
触目惊心的数据,一度将保险反欺诈推到了行业的风口浪尖。在公安部门、保险监管部门、保险主体的重视下,各种反欺诈的培训、交流、中心、专项行动等等,如雨后春笋一般,一片欣欣向荣。保险公司、保险科技公司正在广泛应用人工智能、区块链等前沿技术,从数字化、立体化、前置化、智能化四个方面全面升级风险管控模式。只是,笔者认为我国保险业仍处在保费引领时代,保险主体仍以争夺市场份额为主要任务,在保险反欺诈上人力、财力、精力的投入较之前者有着天壤之别。于是寄希望于科技手段,寄希望于人工智能赋能。
确实,保险反欺诈的实证研究大都基于违法行为或案例的大数据分析,适合人工智能技术落地;智能科技的专业化应用可以有效提高保险欺诈识别率,这一点行业内部也已有共识,只是,保险反欺诈距离人工智能还有多远?
人工智能概念自达特茅斯会议提出,到如今已经发展成炙手可热,关于什么是人工智能,本文不赘述,感兴趣的小伙伴可以去问“度娘”。大家都知道,作为生产资料的持续的数据流,作为生产力的计算能力,以及处理数据的算法,是人工智能的核心。当前计算机技术异常发达,关于算力可以说只要肯投入资金,已经不再是问题,我们主要围绕基础层的数据和技术层的算法,简单聊聊。
在人工智能基础层,主要涉及到数据收集、数据解释、数据预处理。即需要获取哪些类型数据,从哪些途径获取数据;获取到原始数据之后,需要分析数据里面有什么内容、数据准确性如何,从而为下一步的预处理做准备;原始数据可能会有环境影响或者干扰因素,格式化也不好,所以为了保证预测的准确性和有效性,需要进行数据的预处理。现实中,存在下面诸多问题:
一、保险公司数据或数据字段缺失现象严重
数据的有无取决于信息化程度。我国保险市场信息化起步较晚,而且是逐步完善的过程,当前保险市场,除部分意识前卫、系统先进的公司字段较为全面外,绝大部分公司存在严重的数据字段不全或缺失,让数据无处可取,何谈数据风控?
二、保险公司基础数据质量差
一方面,保险公司采集客户信息的手段单一,大部分风控信息通过面对面的人工沟通获得,这种手工收集的资料难以保证准确性和真实性,部分数据不符合行业或公司的规则标准,不足以支持风险指示或欺诈检测。另一方面,由于保险公司管理措施未跟进或未很好跟进,偷懒的随意录入和刻意规避的随意录入现象较为普遍,数据较脏。据FRISS调查显示,45%的险企认为“内部数据质量”是应对欺诈的最大挑战。当内部数据质量低于标准时,指示风险或检测欺诈将无法完成。
三、保险公司内部信息割裂、无法形成统一视图
在保险经营管理活动中,承保、理赔等各个环节的数据之间缺少必要的逻辑图谱搭建与交叉校验,导致保险公司无法对客户进行全面、有效的风险管理。而且,广大中小保险公司内部的核心业务系统、销售支撑系统、CRM系统等数据至今仍未能打通,各省分公司、机构之间也不能充分共享数据,导致对客户的风险控制困难。
四、行业数据难共享、合作困难
在仅有的有效数据上,各个保险公司之间,行业协会与险企之间的数据共享困难,难以形成合力,被认为是困扰各大保险公司风险管控的一大议题。如上图显示,FRISS调查中34%的保险公司认为“外部数据访问不足”、33%的保险公司认为“与其他保险公司合作”是一项重要的挑战。为推进行业数据共享,世界各地在尝试建立保险信息共享平台。
五、专业人才仍是一个瓶颈
人们从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析实现状况,采取最佳策略。要让计算机能够做到这样,我们得先教会它。所以,取得原始数据后,我们需要有懂业务的专业人才,一方面去初步验证、评价数据质量;一方面还需要去分析数据中的内容,归纳出一定的规律;再则是需要对数据进行清洗和预处理,而这样的人才是或缺的。懂保险业务的不懂数据,懂数据的不懂保险业务,离开业务场景去谈数据,这样的鸿沟显然于事不利。
在人工智能技术层,其核心是特征工程、模型和算法选择。
特征工程是需要使用专业背景知识和技巧处理数据,将数据里有用的、有典型特征的抽取出来,使得特征能在机器学习算法上发挥更好的作用。我们缺失可以选取保险合同种类、保险事故类型、索赔人特征和索赔行为表现等,作为保险欺诈归类的依据,用以挖掘保险欺诈影响因子,然而很明显,这里需要复合型人才。首先是特征提取,面对任意数据(字段、文本、图片等),结合业务场景、欺诈类型、人员类型等等,可以提取哪些特征并转换为可用于机器学习;其次是特征预处理,通过哪些函数,将特征数据转换为更适合算法模型的特征数据;第三是特征降维,又是结合业务场景,权衡已提取特征的去留,从而使得未来构建的模型更高效、更准确。
模型和算法选择恰当与否,影响到预期准确值的获取。人工智能算法大体上来说可以分类两类,基于统计的机器学习算法(Machine Learning)和深度学习算法(Deep Learning),目的都是从数据中分析获得模型,并利用模型对未知数据进行预测。在反保险欺诈领域的应用,主要是根据场景和险种需要,建立模型,之后系统化欺诈案件特征并输入设置,依靠定量方式评估理赔案件中欺诈风险级别。比如:基于决策树的Bagging组合算法,将所有索赔区分为正常索赔和欺诈索赔,可以为保险欺诈提供良好的解释性;BP神经网络模型可以自动提取保险欺诈识别因子和识别结果之间的规则;利用 LOGIT 回归模型监测保单索赔发生率,控制逆选择风险和道德风险;贝叶斯网络用于保险欺诈的现场模拟,逆推导寻找出险状况……还是要结合场景和险种需要,还是需要复合型人才,这不仅表现在模型构建,还表现在模型评估和模型训练。并且,模型训练,又需要持续的高质量的数据流,问题又回到数据模块。
综上,在人工智能赋能保险反欺诈的路径选择上,首先要保证数据的全面性、权威性、准确性和识别流程的可解释性;其次,保险欺诈具有复杂性、多样性等特点,目前还未有普适型的欺诈识别模型,仍需要我辈坚持不懈地去探索;第三,针对保险欺诈场景研发适应性方法,需要一定量级的复合型人才,而人才的培养需要一个过程;最后,保险公司“重保费、轻理赔”的观念转变需要一个过程,才能提高对保险反欺诈工作的重新认识,才能投入更多,并利用人工智能落地的契机实现风险管理扁平化、日常化。
人工智能赋能保险反欺诈,任重而道远!