加油站数据分析之玩转卡系统

加油站运营管理2019-01-21 16:16:22

“加油站商务信息交流”QQ群( 319379081)是本平台的站外交流社区,本群的设立是为了便于以加油站为服务对象的各类技术、设备、信息供应商寻求合作伙伴;便于加油站为满足客户需求、开展市场营销以及实现安全运行寻找社会服务机构,期待您的光临。  



作者|辽宁丹东  管保罗



随着汽车日益普及和人们消费方式的改变,加油卡作为现代营销工具已逐渐得到社会认可。但是同时,加油卡在使用过程中出现的套现行为也日益增多。


为有效防范、监控加油卡套现行为,避免给企业造成负面影响,保证“油卡非润”一体化营销活动持续健康发展,作者运用大数据的分析思想,依据从加油站后台卡系统导出的加油卡刷卡记录为数据基础,自主构建单站模式下的加油卡异常消费分析模型,对加油卡消费数据进行分析。


本文涉及一些编程知识,总字数在2700字左右,绝对干货,认真读完至少需要20分钟,可以对数据挖掘的概念有初步了解。所以,文艺青年读到这里就可以直接关掉或者分享啦。


文章最后,模型代码双手奉上。


不敢说才疏学浅,但必有不足之处,欢迎有一定深度思考能力的朋友交流指正。

01 | 问题描述


在对加油卡消费数据进行分析时可以发现,以往的加油卡分析过程中,主要存在以下三方面问题。


一是加油卡异常数据来源单一。加油卡异常数据主要有两个来源:一个是由上级公司不定时提供的异常加油卡数据,另一个是由加油站管理系统•卡系统中自带的分析功能得到的数据。但是,由于受到系统权限和分析方法的限制,两个数据来源均不能为地市销售公司及时的提供异常加油卡数据。


二是分析异常加油卡的算法简单。每个地市销售公司由于地理位置、生态环境的不同,分析时间段的不同,导致加油卡异常情况也不完全相同,如果以单一的算法分析动态的问题,会产生较大的误差。


三是基础数据过于庞大。从卡系统中导出的加油卡消费明细可以看出,成品油年销量万吨的加油站单月的加油卡平均消费笔数在1万条以上。在庞大的数据量面前,EXCEL的自带分析功能显得力不从心。


02 | 模型假设


1、假设加油卡的比例与人口比例正相关。


D市总人口243万,以D市旅游局提供的数据为准,D市单日外来旅游人口最大值为5万,占全市人口的2%。


2、假设单人单卡,且单人单次加油金额相同。


截止到某年7月末,D公司累计发卡137132张,其中个人卡44141张,单位卡78497张,不记名卡14494张。可以算出,个人卡(含不记名卡)发卡量占总发卡量的43%,单位卡发卡量占总发卡量的57%。

03 | 模型符号的定义与说明


1、加油卡类别分类标准。

表1:加油卡分类标准


2、A:任意选取的一座加油站。


3、A个人卡,A单位卡,A外地卡:分别为A站对应的个人卡比例、单位卡比例、外地卡比例。


4、B1…Bn:选取的n个标准站。


5、a个人卡,a单位卡,a外地卡:分别为标准个人卡比例、标准单位卡比例、标准外地卡比例,计算公式为:


a个人卡 = (B1个人卡+……+Bn个人卡)/n

a单位卡 = (B1单位卡+……+Bn单位卡)/n

a外地卡 = (B1外地卡+……+Bn外地卡)/n


6、异常程度划分三级:轻度异常、中度异常、重度异常。

表2:以个人卡比例判断异常程度的计算方式


7、每一张excel表格的具体内容:


一级明细:按单张卡号的升序排列,每张卡号按交易时间的升序排列。


一级报表:计算A站个人卡、单位卡、外地卡消费的异常程度。


二级明细:按单张卡号的结算业务日期统计单天的消费明细。


二级报表:按单张卡号统计每一张加油卡的14项数据,分别为:卡号、客户名称、开户机构、总天数、总次数、总金额、总折扣、总原金额、总油量、单天平均次数、单天平均金额、单天最多刷卡次数、最多次数对应金额、单天最多次数结算日期。


三级明细:按单张卡号的交易金额,取前十名的具体交易明细。


三级报表:分别取出个人卡、单位卡、外地卡刷卡总金额为前10名的8项数据,分别为:卡号、持卡人姓名、刷卡次数、刷卡金额、比例、单天最多刷卡次数、最多次数对应金额、单天最多次数结算日期。


04 | 模型的建立

模型流程图


Step1:以第i天的8:00到第i+1天的8:00的24小时为时间段重新定义结算业务日。


Step2:选取n个标准站,分别计算n个站对应的个人卡比例、单位卡比例、外地卡比例,加权平均后求出标准比例——标准个人卡比例、标准单位卡比例、标准外地卡比例。


Step3:计算A站对应的个人卡一级明细,单位卡一级明细、外地卡一级明细,得出A站一级报表。


Step4:根据A站一级报表中对应的个人卡比例、单位卡比例、外地卡比例,与进行5%浮动后的标准比例比较后得出异常程度。


Step5:计算A站对应的个人卡二级明细,单位卡二级明细、外地卡二级明细,得出A站二级报表。


Step6:计算A站对应的个人卡三级明细,单位卡三级明细、外地卡三级明细,得出A站三级报表。


Step7:根据A站的个人卡比例、单位卡比例、外地卡比例相对应的异常程度在二级报表或三级报表中检索相应的加油卡类别和卡号。


注:模型最后的处理结果为自动生成的12张excel表。


05 | 模型的应用价值


单站模式下的加油卡异常消费分析模型以卡系统中导出的单站加油卡消费明细为基础数据,采用分组分析法、指标对比分析法、极值分析法相组合的科学方法,对基础数据进行3层挖掘后,清晰的得到加油卡异常消费数据,为进一步判别加油卡套现行为提供了准确的数据基础。


模型在获得加油卡异常消费数据的同时,还体现出以下三方面作用。


一是转变了加油卡被动核查管理方式。通过模型的全自动分析,D公司可以随时随地的对任意卡销比异常的加油站进行加油卡异常数据分析,改变了以往只能依靠上级公司提供数据的工作方式。


二是提高了工作效率。模型算法经过5次优化后,达到1分钟分析10座加油站,生成120张excel表的工作效率。以8月初进行的加油卡效能监察为例,对选取的23座加油站累计15万条消费数据进行分析,共耗时4分钟。


三是提高了企业精细化管理水平。在得到加油卡异常消费数据的同时,模型对相应的异常金额进行了按天统计,结合现场检查和加油站的监控录像,可以准确判断异常消费是否为套现行为。同时,也为加管、财务监管加油卡消费数据提供了一种新方法。


06 | 结论


毋庸置疑,无论模型建立的再完善,套现行为都无法避免。如果你不相信,可以百度一下“信用卡套现”,看看会产生多少的相关页面。


直到目前,异常强大的银行信用卡系统也做不到用机器算法精准的判别套现行为,何况我们呢?


套现的机器算法识别是一个道高一尺,魔高一丈的重复过程,没有哪个模型最准确,只有哪个模型更准确而已。


最后,有一点我们得承认,如果刷卡行为能做到完全匹配顾客的正常消费行为,那么任何机器算法都无可奈何,不是么?


07 | 源码下载

保罗奉行开源的创作原则,所以老规矩,保罗愿意把源代码拿出来共享,希望帮到更多有需要的人。


拿出了整个源码,就相当于我把这个项目完完全全的送给了你。源代码以JAVA语言编写,1700行代码量,理解起来有难度,不想折磨自己的就不要下载了。


下载链接: http://pan.baidu.com/s/1jI5zP0U

下载密码:有兴趣请关注“有话漫说”,向作者索要密码




( 有话漫说仅发布独家原创作品,拥有全部内容及数据版权。欢迎个人分享,媒体或商业转载必须联系我们并获取邮件授权,违者追究法律责任。 )




这是有话漫说


专注于用漫画讲述加油站的故事


参与“中国加油站管理论坛,点击下方阅读原文









Copyright © 古田计算器虚拟社区@2017