基于SNA图谱识别车险欺诈的思考
图谱是系统的分类编辑进而可用来说明事物的图表,是为了通过图像更好的了解事物的一种形式,是关系的最有效的表示方式。例如基于历史赔案的车险理赔分时段热力图和分区域热力图,既可以据此合理配置查勘和定损资源,同时也可以在客户出行时进行前置风险预警。SNA图谱就是一种基于图的数据结构,利用社交网络关系分析技术,将数据之间的关系、人与人之间的关系、物与物之间的关系、人与物之间的关系等建立网络关联,再通过图计算从关系网中进行潜在欺诈风险识别和评分。可以说SNA图谱提供了从“关系”的角度去分析问题的能力。通过大数据分析与串联,找到不同时间、空间的人、物之间的关联,从而让欺诈行为无处遁形。
一、什么是SNA图谱
简而言之,SNA图谱就是运用社交网络分析算法进行大数据挖掘,把所有不同种类的信息(人、物、关系等)连接在一起而得到的一个关系网络。社交网络分析是一个针对社会网络的内部结构和节点之间的关系进行分析和解释的重要工具。通过社交网络分析可以了解社会网络的内部特性和节点之间的角色关系。[1]
所谓物以类聚,人以群分,一旦能够对不同时间、空间的人、物之间的关系进行串联、分类,就能够发现很多潜在信息,就能够做很多事情。比如:可以对人进行精准化营销,推荐个性化的商品和服务;切断网络中的关键节点就可以有效阻止传染病的传播;识别互联网金融、保险理赔行业中的欺诈团伙,进行反欺诈预测等等。本文主要聚焦车险欺诈识别。
二、SNA图谱反欺诈案例
技术发展驱动着保险科技的研究和应用实践,中国保险业在云计算、大数据、人工智能、区块链以及物联网等方面都有相应的探索。保险公司一方面是引入外来创新,一方面是结合自身特点自行开发创新,并取得了一定的成果。下面笔者介绍两笔运用SNA图谱串联反欺诈的成功案例。
案例一:同一驾驶员撞同一伤者二次。SNA网络提示,同一名驾驶员分别于2014年1月、2015年9月撞同一伤者。保险公司随即开展调查,通过赔案相关资料及当地法院核查,发现保险公司内部一名工作人员内外勾结,通过编造虚假法律文书,以“诉讼案件,避免执行”为由,申请减免认定书、人伤病例等材料理赔结案。扩大SNA网络,又发现其在2014年4月至2016年7月期间共制造虚假案件5起,涉及赔款金额42万余元。由于识别精准,查处得当,虚假赔款已悉数追回,相关嫌疑人已被公安部门羁押。
案例二:多名伤者短期多次出险。SNA网络提示,多名伤者短期内多次出险,保险公司处理人均为同一人。保险公司立即安排通过交警队、医院实地等地实地核查,发现外部修理厂老板王某伙同保险公司内部工作人员,通过购买虚假病历及发票等方式,在2015年12月到2016年7月期间共制造虚假赔案83笔,涉及金额78.6万元。由于识别精准,查处得当,虚假赔款已悉数追回,相关嫌疑人已被公安部门羁押。
前述两个成功案例,或只是实际理赔场景中的冰山一角,但即便是这“一角”也颇为触目惊心,不但损害了保险公司的利益,也损害了大部分善意被保险人的利益。涉案人员这种跨时间、跨空间、跨当事人等看似隐蔽的做法,确实逃避了审核人员的识别,但在SNA图谱串联下,终究法网恢恢疏而不漏。
三、SNA图谱构建
SNA图谱在车险理赔反欺诈中的成效已然不言而喻,那么要如何构建图谱?本文主要从节点确定及数据提取、节点数据清洗、关联关系、生成网络图谱几个方面阐述。
(一)节点确定及数据提取
数据是当前科技时代的重要生产资料,可以说等同于工业时代的石油。SNA图谱基于大数据、节点关联织网构图,一方面是节点确定,即可能出现在多个风险案件中的风险主体,通过连接关联节点,可以将团伙案件关联成网。一般需要结合业务实际来确定风险关联节点,车险中常用节点包括:来电号码、车牌号、车架号、驾驶员、伤者等;一方面是数据提取,确定关联节点后,据此提取节点数据,通过数据时间跨度调整SNA图谱大小,数据的时间跨度一般由系统载荷和业务实际确定。
(二)节点数据清洗
数据的量至关重要,而数据的质亦不可忽视,“脏”数据有时候不但会造成资源浪费,甚至会引导我们“南辕北辙”。实践中常见的数据问题,主要体现在数据缺失比例高、错误数据、频率过高(故意乱录)。首先,数据缺失比例高可能导致织网构图不完整、无法将风险主体框进网络。如驾驶证号码缺失60%、伤者联系电话缺失95%等,我们可以通过内外部多种渠道补全数据。其次,错误数据容易形成错误和无效的网络,影响案件调查。如驾驶员驾驶证号码全写0、1、8、X等其他无效数据,我们可以通过数据校验规则,剔除无效数据。第三,频率过高容易形成大型甚至超大型网络,错误框选风险主体,不利于案件调查。如13%的三者驾驶人手机号码为“13801200000”,我们可以通过节点只显示不关联、超过一定频数的节点设为空值,分割网络,使网络构图业务层面变得有意义。
(三)关联关系
节点确定、数据提取和数据清洗的核心目的是确立节点之间的关联关系,发现车险案件间直接或间接的联系,识别潜在风险点、风险主体,一般通过精确匹配和模糊匹配两种方式。精确匹配,顾名思义是两个节点的信息完全一致,如身份证号、车牌号、车架号等字段,通过精确匹配建立连接。模糊匹配,也叫近似匹配,一般在数据质量和数据标准化程度较低时运用,如地址、公司名称或姓名等非结构数据匹配建立连接。
(四)生成网络图谱
网络图谱是为了更直观地呈现节点之间的关联。通过图论算法,将具有相同节点的多个主体,关联成网,对网络节点、连线进行图形化展示,并对网络触发的风险规则进行提示,协助业务人员进行审核。
四、SNA图谱运用
SNA图谱其实质是科技赋能保险的一种形式,是理赔反欺诈的一种工具,保险公司可以因需而用。事前预警,可以辅助审核人员、管理人员前置发现、规避潜在风险;事中碰撞,通过提示的风险信息进入网络进行关联分析,判定案件调查方向;事后审计,运用可视化的网络展示工具,开展风险网络审计,将传统审计时效有效缩短、审计效能提升。
五、结语
SNA图谱织网构图依赖数据,依赖数据的量和质。想要更好地发挥其在反欺诈领域的功效,保险行业一方面要对SNA图谱技术进行深入的了解,不只是仅仅停留在理解概念层次,要更多地结合自身的需要把SNA图谱技术融合进自身的运作模式之中;另一方面还需要通过管理手段和举措,健全数据字段,规范全流程各环节的录入,确保数据质量能够得到有效提升;最后,需要需要监管和行业协会牵头,敦促行业主体之间的数据共享,打破信息孤岛,最终实现全行业无死角发欺诈。
参考文献
[1]贾志娟,赵靓,周娜.基于社交网络分析的诈骗团体挖掘方法研究[J].计算机技术与发展,2018,28(5):96-99,104.