大数据时代的裸奔
来源:
发布日期:2015-01-19 18:57:16
阅读量:0
老王开了个包子铺,但有时做多了卖不完,有时又不够卖,老王琢磨着买包子的都是街坊,买包子是有规律的,例如老张只在周六买,因为闺女周末会来看他,而闺女爱吃包子。于是老王每卖一次就记一次账,试图找出街坊的买包子规律。但数据虽然越记越多,却啥规律也没找出来。有个人给老王支招,你甭记顾客,记每天卖了多少笼就行,这个法子明显简单有效,很容易就看出了周末比平时会多卖两笼的规律。
这个例子虽然简单,却道出了大数据的一个重要特点:相关关系比因果关系更重要,“周末”与“买包子人多”就是相关关系,但为什么多呢?对这些可能性不必探究,因为即使探究也搞不清楚,只要获知了周末买包子的人多就行了。
要相关不要因果,这是大数据思维的重要变革,以前数据处理的目标更多是对猜测的因果性的验证,人们总是习惯性地找原因,但这个原因是否是真实的,却往往是无法核实的。承认很多事情是没有原因的,这是人类思维方式的一个重大进步。
传统的调查方式都是抽样的,之所以选择抽样而不是统计全部数据,是因为全部数据的量太大,没法操作。 抽样的核心原则是随机性,不随机就不能反映整体趋势性。例如搞一个保暖内衣的调查,找了一群精壮的武警战士试穿,战士们穿上了普遍反映不冷,但这并不能说明内衣的保暖效果有多好。
但要做到随机性其实是很难的。例如电视收视率调查,要从不同阶层随机找被调查人,但高学历高收入的大忙人们普遍拒绝被调查,愿意接受调查的多是整天闲得无聊的低收入者,电视收视率的调查结果就可想而知了。
互联网为大数据的采集带来了新手段,云计算为处理大数据带来了新方法。互联网电视普及后,用户正在收看什么节目的信息会毫无遗漏地发送到调查中心。这就是大数据的第二个特点:要全体不要抽样。
既然我们要的是全体数据,自然会夹杂进来一些错误的数据,传统的数据分析思路是“宁缺勿滥”,大数据时代的原则就变了,成了“要效率不要精确”,并不是说精确不好,而是因为如果继续把排除错误数据作为重要工作,那大数据分析就进行不下去了。更重要的是,大数据分析的目标在于预测,而不在于追溯以前发生过的事件的真相。
不过,大数据时代我们都面临一个重大问题,就是隐私权如何保障。美国某机构曾做过一个实验,根据网友的搜索记录来筛定目标,虽然信息已经进行了模糊,还是有不愿意出柜的基友被筛出来了,基友的妈妈非常震惊和生气,将该机构告上了法庭。
更有意思的是,将来的犯罪逮捕会变成事前,有天你啥事没做睡在床上就被逮捕了。警察通告你:根据警方对你所有信息的大数据分析,显示你已经知道了老婆出轨之事,根据以往犯罪案例及你本人性格的大数据分析结果,你有76.3%的概率会在本周内对老婆进行轻伤以上程度的施暴,超过了法律规定的60%轻伤以上犯罪概率必须入监的标准,特羁押你一个月。
是不是感到了毛骨悚然?在大数据时代,我们每个人都是赤条条地在信息社会中裸奔。难到没有人意识到这点?当然不是,英国等西方国家早就对街道监控摄像头展开了全社会的大讨论,安全与隐私该如何权衡?随着近年来恐怖主义的盛行,安全显然更重要了,公民们很无奈地同意把更多的隐私权交给了政府。
公安部门掌握着每个人的开房信息,如果不涉及到重大违法犯罪的话,绝不能滥加使用,更不能透露给当事人的配偶,否则社会就会大乱。掌握信息和利用信息的应是独立的两个机构, 而且必须对公民隐私信息进行分级制严管。
我们该如何做好迎接大数据时代的准备?我觉得应该培养公权机构绝不能泄露公民隐私的社会舆论,前几天流传着范冰冰的机场安检照,记者们以此做娱乐文章,这就是一个极坏的兆头!如果放任这种公权力的滥用,每个人将来都会成为光屁股裸奔的人。
重点聚焦
更多>>