大数据的“大”到底是什么意思?|读书

技术管理那些事2019-03-14 11:19:42
 

本期再推荐一本经典书籍:《Big Data|大数据时代》。几乎天天有人在讨论大数据,“大”到底什么意思?这个“大”对将来的商业模式和管理理念又意味着什么?这本书的作者Viktor,作为一位生活在欧美现代社会的学者,给出了他带有宏大视野和菁华的解读。

相信大部分读者对“大数据”这个词已经耳熟能详了,也怪不得Dan Ariely,TED的创始人,美国杜克大学行为经济学教授,曾将大数据技术比作未成年人的性*行为:


“每个人都谈论它,但没人知道怎么做,每个人都以为其他人在做,所以每个人都宣称他们在做。”


听起来是调侃,可何尝不是事实呢。有几个人细想过大数据的“大”到底什么意思?作为“成年人”,一起来看看学习一下吧。


1


大数据之“大”的三个含义


很幸运,我不是纸上谈兵。在重读Big Data之前,我的团队在最近一个项目中,通过Spark MLlib的机器学习,对近10年的用户数据进行了初步处理消费目标预测正确率达到了75%。这个项目充分证明了大数据的实际效益。下面我们来看看“大”的三个具体含义分别是什么吧。


❶ 更多(More)

“更多”的含义是“样本=总体”,即大数据分析取代样本分析。书中不仅给出了Xoom跨境汇款异常交易报警案例,也给出了乔布斯通过DNA排序治疗癌症的例子。后者例子中,乔布斯得到了整个基因密码的数据,根据基因突变不同排列,医生遍历尝试各种用药,将他的生命延长了好几年。理论上,如果计算能力足够强,用药足够及时,大数据分析治疗取代DNA样本治疗是可以战胜癌症的。


❷更杂(Messy)

“更杂”的含义是“大数据的简单算法比小数据的复杂算法更有效”。在研发计算机翻译系统时,IBM使用传统统计学方法对英法两种语言进行翻译,而Google使用60多种语言的海量级语料库进行翻译,这两种方法形成了鲜明的对比。 Google的翻译质量之所以更好不是因为复杂算法,而是更杂更多的数据。


更好(Correlation)

“更好”的含义是“知道相关关系(是什么)就够了,没必要,或者可以晚一些,知道因果关系(为什么)”。例如书中提到的沃尔玛把草莓味蛋挞与飓风用品摆一起卖销量大,然而一直没搞明白其因果关系。另外,在Kaggle二手车质量预测例子中,相关关系分析表明,橙色车质量问题是其他颜色的一半,也很难用因果分析,甚至过度的研究因果关系有可能把一些视角蒙蔽掉。


在刚才提到的实际案例Spark MLlib大数据分析过程中,使用了近10年消费者总体数据作为输入,而不是个别样本(更多),尽量保持原始消费者数据不变,没有过多的清洗更杂),只关注消费者购买目标预测,不过多分析其中原因更好)。大数据之“大”的三个含义,更多、更杂、更好,得到了充分的实践证实。


2


大数据对商业模式的影响


众所周知,BAT中的阿里巴巴招募了几千位数据研发工程师,数据分析师,数据挖掘工程师。作为电子商务的先锋,他们的数据工程师们都在具体干什么呢?


量化(Datafication)

量化也叫做数据化,就是把IT信息技术变革的重点从现在的“T”上,聚焦到“I”上。原书作者从1839年的美国海军军官莫里Maury数据化航海数据说起,一直到现代的Google数字图书馆,处处都体现了数据化带给整个商业模式的重大影响。现实中,阿里的工程师们也在量化一切,涵盖了我们消费者购买商品、消费方位、和商家的沟通数据等海量信息。


价值(Value)

这个价值更多的是说通过数据挖掘产生的增值(Value-added)。很多时候,我们面对数据,就像书中说的一样,“就像鱼不知道自己是湿的一样”,很形象的说出了我们对身边信息的无知。所以书中详细解读了数据创新中的数据再利用、重组、可扩展、开放等大数据处理工具和方法。


角色定位(Implications)

大数据对现代商业的影响(Implications)就是商业价值链中的角色重定位。有三种大数据公司:基于数据本身的公司(例如,Google收购的ITA Software、阿里收购的高德地图等)、基于技能的公司(例如,帮助沃尔玛获得营销点子的大数据技术提供商Teradata)、基于思维的公司(例如,预测航班晚点的FlightCaster)。当然有一些巨无霸公司就三个角色都兼备了,例如Google、Amazon,以及我们经常说的BAT。


在新的商业模式中,随着大数据Big Data能够越来越精确地预测世界的事情,我们除了关注传统的土地、劳动力、资本等生产要素外,必须重视大数据Big Data这个要素,否则就可能真成了上面说的“那条鱼”了。


3


大数据对管理理念的影响


书中提到的管理更多的是指社会管理,但是,作为一个技术产品管理的公众号,我们也希望读者能在其中悟到一些技术产品团队管理的道理,尤其注意掌控(Control)和创新(Innovation)之间的平衡。防止过于量化,让团队失去创新的活力。


风险(Risks)

风险指两个方面,一是大数据会带来隐私的威胁;二是数据源的低质量和分析方法的错误可能导致数据的滥用和误用。作者引用了美国国防部长Robert McNamara在越战中执迷数据的例子,过于依赖电子表格去了解战场上发生了什么,从而导致了指挥僵化问题。


掌控(Control)

掌控就是指人类使用各种方法积极主动应对大数据时代带来的各种风险。例如书中提到四个管理变革:加强个人许可保护隐私、个人只为自己的行为负责而不是大数据预测的倾向负责、“算法师”的新角色来监督大数据使用、和反垄断法一样在大数据时代反数据垄断。


“凡是过去,皆为序曲”。回看阿波罗登月时仅4KB内存的导航控制系统,大数据时代会发生什么都不应该觉得奇特了。我们必须要以开放创新的心态去迎接大数据时代的挑战和机遇。


当然大数据也不是万能的,主导还是源于人类本身的创新。如果只是依靠历史大数据预测未来,福特Ford公司的产品经理们得出的需求Demand也许永远都是更快的马,而不是汽车了。


注:为了了解Demand,请看读书系列另一篇 为什么你的产品总是死?创造需求的6大关键|读书


Copyright © 古田计算器虚拟社区@2017