大数据vs非法传销网络,数据挖掘技术识别传销!

网星大数据2019-02-10 16:23:29

非法传销早在20多年前由美国流入中国,在国内一直是一个屡禁不止的毒瘤。最近,东北大学毕业生李文星之死使得这个问题再次成为所有人关注的焦点。正如魏泽西之于虚假广告,徐玉玉之于电信诈骗,李文星的意外死亡产生的影响使得在国内多地明火执仗,存在多年,甚至和本地人民“水乳交融”的传销组织突然面临前所未有的打击。


最近,国家工业和信息化部更是联合国家工商行政管理总局、教育部、公安部、人力资源和社会保障部4个部门印发了《关于开展以“招聘、介绍工作”为名从事传销活动专项整治工作的通知》,开展为期3个月(2017年8月15日—2017年11月15日)的传销活动专项整治行动。


传销危害人员之广,造成财产损失之大,历经时间之久远,骗术花样之繁多堪称触目惊心。然而再多的骗术、攻心术在数据面前立刻显现出最本质的单一模式。利用数据挖掘技术结合网络分析理论传销组织的组织机制行为模式角度识别传销不仅可以以不变应万变,发现传销组织的团体涉案成员,还有助于发现传销组织中的终级背后操盘者,辅助公安部门根除传销组织,帮助各大运营商提醒客户最大力度地避免传销电话。此外,这还可以减少公安部门大量的物力、人力、财力,精准定位传销组织窝藏地点,减少人民不必要的财产和人员损失。


最近,笔者和中国移动通信集团公司合作探索了如何快速从通话行为中甄别传销网络分析了一个子网络中4天的通话网络,并处理成无向网络。其中用户被分成4普通用户某大型企业员工服务账号传销组织人员分别从这些用户中选取一位作为种子节点,画出从这个节点出发按广度优先搜索获得的子网。


这样的网络被称为自我中心网络(ego network)[1,2]。图1,图2,图3,图4分别是从普通用户、服务账号、企业某领导、传销组织某头目出发得到的4个自我中心网络。


图1  某普通用户的自我中心网络

图2  某服务账号的自我中心网络

图3  某企业领导的自我中心网络(局限在本企业员工中)

图 4 某非法传销组织头目的自我中心网络


可以看出,普通用户、服务账号自我中心网络与传销网络相去甚远,但是公司网络也有类似于传销网络的层次管理结构[3-5]。通过4种常见用户群组通话网络的比较发现,传销网络呈现出与实际业务模式一致的类树状层级结构


而与传销组织有着相同层级模式的公司用户群网络层级模式也非常明显,但是非相邻层级之间、非同一组之间的节点也有通话(同一组指的是几个节点有共同的上线节点,这里的上线和下线是以选择的根节点为参照)。


因此,总结了传销网络3种明显的特征节点之间不跨级联系同级不抢占下线同级非同上线节点不联系基于总结的传销组织特征,定义了3类特征指标,见表1中的I1、I2、I3。I1指标中如果一个节点i有两个位于上一层的连边j1和j2,则按照广度优先搜索的顺序,第一个扩展到i的节点被认为是i的父节点。


表 1 网络属性量化指标

当然,传销网络还有很多特征是和一般网络不一样的,例如涉及传销网络的用户出度和入度分布都和其他网络大不一样[6],如图5和图6所示。

图 5 出度分布的比较

图 6 入度分布的比较

本文用I4、I5、I6 3个指标量化不同网络出度和入度分布的差异。如果出度为i的节点个数是ni,则

对于I5、I6,引用信息熵的概念量化一个度序列的异质性[7,8],其计算式

其中,N为节点个数,p(k)是度为k的节点出现的概率,值越大,度序列分布越异质。从表2中可以看到,相比其他3类网络,传销用户群的出度分布和入度分布的信息熵值都是最小的这也表示传销用户每个用户的接入上线数量和下线数量更加确定。

表2 基于 4 类有向无权网络计算的指标信息

仅仅利用这6个指标就可以很好地分辨出不同自我中心网络是不是疑似传销网络。

根据以上分析,可以设计疑似传销网络的生长算法,从任何一个节点出发,生长出可能的最大疑似传销网络,然后根据生长情况判断它是不是一个传销网络。见表3,笔者设计的算法识别的传销网络几乎能够覆盖节点数占比大约只有0.1%的疑似传销人群,但是对于其他已经甄别出来没有问题的人群完全不误判。


原始数据的分类标签是由公安部门给出的,一些更细致的特征还可以进一步提高算法效果,但因为涉及敏感信息,本文此处不详细介绍。

表3 节点覆盖度

如图7所示,笔者提出的算法基本覆盖了传销网络的所有核心,只有少量外围节点算法本身无法确认是不是传销分子。但是这完全不影响调查和抓获这个传销组织,特别是不会影响对传销头目和组织结构的识别。

图 7 算法识别出的可疑节点的覆盖区域(黑色节点为算法识别出的可疑节点)

个人隐私数据的泄露给了很多电信诈骗不法分子以可乘之机,但数据科学的正确使用也可以帮助揭示非法组织,保护人们的人身和财产安全。传销组织无法通过本文所描述的一些特征来躲避本算法的计算,因为这些特征更改意味着改变传销的组织和运营模式,这样的代价他们无法接受。并且本文描述的只是算法中最简单的一小部分,笔者并不仅仅只是通过这些特征量识别非法传销。


除了本文的研究,数据挖掘和网络分析技术在辅助挖掘犯罪分子方面的应用还很多,在拥有了移动轨迹、行为数据的基础上,可以更深入地分析犯罪分子异于常人的行为模式,达到挖掘潜在嫌疑人、快速定位嫌疑人的目的[9]。


作者:李艳丽, 刘阳, 谢文波, 罗秀, 徐腾, 翁先正, 马国彬, 尚杰, 许海泉, 邓先晖, 康丽, 侯丽霞, 陈端兵, 周涛电子科技大学

来源:大数据周刊





Copyright © 古田计算器虚拟社区@2017