海量数据时代的资料到底有多大
数据多到不能量计,只好用一个实体化的“大”来形容,BIGDATA成了近几年最热的名词,很多人说我们已经进入“大数据时代”。
全球的资料多到、或大到时么程度,没有人说得准,我们每天从工作到生活,无时无刻不制造新数据,各行业、各机构每天也不停的收集、传递、储存庞大的数据,再加上天文地理的科学研究数据,地球上的数据量每两年增加一倍。
数据是什么?说起来什么都不是,就是数据,再多的数据还是数据。英国牛津大学Viktor Mayer-Schönberger教授、与经济学人杂志编辑Kenneth Cukier,合写了一本《BIG DATA》的书(注一),说资料仅是真相的幻影,更多的数据并不能引导我们发掘更多的真相,只会导引出更多的数据、以及更多的问题,但可以藉以增加我们的洞察能力,虽然让我们知其然,却未必知所以然。也就是可以从大量数据中可以找到“是什么”,却找不一定能找出“为什么”。
两位数据专家解释这一似乎矛盾的现象,是因为过量的数据,抵消了我们对数据质量的要求。以为有了这么多数据,总会从中找到所需要的内容,但事实上并非如此,数据量不等于数据质。这主要在数据来源的零散、没有结构、没有规划、没有固定目的,数据再多,用在特定的目标上,也难免产生质量不足的问题。
即使如此,资料经过整理、分析、关联,仍可作为预测的根据,有相当的效用。亚马逊用来推荐你可能喜欢的书,谷歌用搜寻的结果出售广告,英雄兼叛徒斯诺登(Edward Snowden)说的从社群网络搜寻恐怖分子的“棱镜”(Prism),都是大量资料的关联结果。一位前美国情治高层为棱镜辩护,说了一句耐人寻味的逻辑,“要从一堆稻草里找一根针,你得先有一堆稻草”。
大量数据急速的扩增,改变了我们的工作、生活、与思维,两位专家认为是自印刷术以来最大的革命。随着技术的进展,原来仅限于情治机构与大型企业的数据关联技术,会越来越普及,应用在商业、政府、科学、医疗各个领域,使得关联的资料成为最宝贵的资产,因为大家都寄望能从资料预测到真相,也就看资料来办事。
保险公司预测风险,美国城市的警力在犯罪区加强巡逻,奥巴马制造政治机器催促选票赢得大选,纽约市检查制造油污餐厅解决下水道堵塞。这些都是从大量数据的分析关联,有效运用到生活的实例。这些技术,无疑的会参与解决全球重大问题,像是气候暖化、杜绝疾病、经济发展。 但看资料办事的负面效应,正是许多资料学者所忧虑的,所依据的资料,尽管经过分析、关联、统计、运算,毕竟不代表真相,因为资料里缺少了最宝贵的“人性”。
美国计算机科学作家Jaron Lanier在他“谁拥有未来?”的书里(注二),说科学的数据与对人的数据,有很大的区别。天文、气象、传染病的研究资料,是经过科学家精心收集实验所得,是宝贵的资料;但对人的资料,正如同我们所了解的人性,是多变的、反驳的,而且通常都不太可靠。
华尔街证券市场,是经过复杂数学逻辑设计出来的交易策略,这一策略却在2008年交易加速之下让市场崩盘。回塑半世纪以前的越战,原任福特汽车执行长的国防部长麦纳马拉(Robert McNamara),精于计量运算,结果在数人头、算面积的胜算之下败了下来,后人评论说他的公式里没有“斗志”数据。
2002年好莱坞科幻大片“关键报告”(Minority Report),故事是未来警局以“罪前”的罪名逮捕罪犯,也就是在即将犯罪、但还没有犯罪之前,先把人抓来,至于怎么知道谁要犯罪,则由三名个躺在水池里有的特异功能的人决定。在大数据的时代,要搜寻“罪前”犯,轻而易举,只不过要不要逮捕而已。
数据再多仍有极限,BIG DATA两位作者说,数据可以量化我们的世界,让我们对世界有更深入的了解,但也要小心不要变成“数据暴君”的猎物。
注一:
Big Data:A Revolution That Will Transform How We Live, Work, and Think(中文简体版大数据时代)
注二:
Who Onws the Future?