获取更多信息请下载APP

大数据核心是“精确有用”,而不在大而全

来源:    发布日期:2016-07-18 11:12:44   阅读量:0

文/李鹏

大数据不能追求以大盖全,而应当追求数据精准并且强调规律。

这两年,大数据遭到爆炒,在很多信息类的交流和洽谈中,言必称大数据。在很多人看来,不拥抱大数据,似乎就要与时代落伍了。尤其是在IT界,如果不能说两句“大数据长,大数据短”的,似乎都不好意思说自己是搞IT的。可在现实中,又有多少人能够真正理解大数据的内涵并恰到好处地加以应用呢?

在目前的南方大规模降雨中,百度、阿里巴巴等多家公司利用大数据,即时发布武汉等城市街道积雨状况的地图,提醒出行市民提前避让。这显示了大数据的巨大威力和前景。继交通控制、春运等一些重要的节点之外,大数据再次彰显了它的价值。但这些涌现出来的优秀案例和风卷全国的大数据热潮比起来,依旧少得可怜。这与我们过于追求大数据的大而全,但质量不高具有很大的关系。

不少业界专家认为,大数据的核心在于“精确有用”,而不在于大而全。所谓精确,就是大数据的来源要可靠准确,能够成为被充分信任的数据;而有用,就是大数据要能够体现出参考或者应用的价值。可实际的情况,我们的大数据恰恰在这两个方面有很大的欠缺。近些年,我们也在追求大数据的积累,但是很多单位或者机构往往过于注重数据的大而全,对数据的质量并不怎么重视,这直接导致大数据来源纷繁芜杂,良莠不齐,结果是其实际应用价值也打了很大的折扣。

此外,“信息孤岛”的存在也是大数据没有得到有效利用的一个重要原因。“信息孤岛”在我们的工作和生活中几乎无处不在,不仅单位和单位之间,往往就是同一个单位部门和部门之间,信息的沟通和交流也是荆棘丛生。这导致的结果一是大数据的使用不方便,人为制造的障碍导致很多数据变成了一个个“信息孤岛”;二是这种“信息孤岛”也导致一些大数据无法形成,大量数据无法转化成具有重要应用价值的大数据。这显然是大数据建设的一个很大的短板。我们今天的世界,已经是一个彼此互联的世界,任何人和单位,都不能离开他人而独立存在,但由于利益的羁绊、行政方面的壁垒以及其它一些要素,数据沟通与合作依旧任重道远。

虽然现在很多单位和机构纷纷打破藩篱和边界,着力于构建统一有效的大数据平台,但能够真正有效发挥作用的并不多。一些人追求大而全,结果是搞了一大堆没有多大用处的数据库。这主要是对大数据的实质并没有清晰的认识。说一千道一万,数据的核心理念还是满足应用需求。普通数据如此,大数据也是如此。没有应用价值或者无法发挥其应用价值,这样的大数据又有多大的用处呢?

在日前举办的中国大数据产业峰会暨中国电子商务创新发展峰会上,中国工程院院士、中国互联网协会理事长邬贺铨表示,大数据不能追求以大盖全,而应当追求数据精准并强调规律。很多大数据,有着其内在的规律性,我们需要发现这些规律,并加以应用。当然,往往对一个大数据集而言,我们很难要求所有数据都精准,但只要大多数数据有代表性,就不妨碍我们利用数据集合得到较为准确的结果,也不会妨碍其应用价值的体现。

今天,大数据依旧在呈现“爆炸性”增长。统计显示,2015年、2016年两年内,全世界新产生的数据量约等于人类有史以来到2014年全球累积数据量的总和。在另一个方面,历年数据的积累也变得更加壮大。以医疗大数据为例,一个千万人口的国内城市50年累计的医疗数据量,预计能达到10PB级。这些数据具有多样性和碎片化的特点。如果我们对这些数据予以去伪存真,并从多个角度予以研究和分析,就能够挖掘出众多对社会、经济、生活等方面十分有用的大数据。

并且,大数据背后的技术也是日新月异,随着数据挖掘技术的进步,未来我们的大数据将会比现在更加具有针对性和有效性。那时,精确有用的大数据将会比现在变得更加重要。■