"大数据时代"样本 = 总体?

March 19, 2013

Tags:读书笔记

「大数据时代」这本书刚看了五分之一,看到一个说法很发人深思。

全数据模式,样本=总体

书中写道:“采样一直有一个被我们广泛承认却又总有意避开的缺陷……采样忽视了细节考察。虽然我们别无选择,只能利用采样分析法来进行考察,但是在很多领域,从收集部分数据到收集尽可能多的数据的转变已经发生了。如果可能的话,我们会收集所有的数据。”

然后作者举了几个例子证明这一观点。谷歌通过分析美国几十亿条互联网检索记录(用户检索感冒药等相关信息),成功预测了某个州的流感蔓延趋势;Farecast公司通过12000个初始样本起家,为用户预测一年中某一航线的最低机票价格,从而平均为每个用户节省了50美元;分析师通过分析11年中超过64000场相扑比赛记录寻找异常性,发现由于特殊的比赛积分制度,日本相扑运动员会在自己积分不受影响的情况下消极比赛主动输给对手,并在下一场与同一对手的较量中得到对手的恩惠。

我就有一个问题,拥有多少数据算多?用赵本山小品中的一句话说,要多少是多,要什么自行车?

根据作者给出的这几个例子来看,似乎,能分析出更多的细节,而这些细节是用传统的抽样方法分析不出来的这样的数据就可以称之为大数据,当然这是非常笼统的。我想作者的意思是,随着计算机和互联网的处理能力和数据存储能力以及存储量的不断发展,对大数据的分析与洞察是大势所趋,必然会挖掘出更多有价值信息。因此,不严谨的说,在现有技术条件下能够得到的数据量的相对最大值就是大数据,就可以称之为总体,而不仅仅是样本了。

但继续随着科技的发展、人们对事物认知水平的深入提高,过去的总体可能会慢慢再次变成样本,人们对数据总体有了新的认识,数据间的关联性比人类现在想象的还要复杂,打个比方,在未来的大大大数据时代,我左手刚要抬起去端起咖啡杯,而右手正要点击搜索框,大脑中准备搜索关键词“红色”的时候,二次元空间的另一头就有智慧生命通过分析知道我想看毛片了。这是肿么做到的呢?他们通过汇总我从石器时代的祖先到现在我的基因序列,与左手肱二头肌上的肌皮神经释放的神经元信号强度进行一次匹配,在与右手食指指甲缝里氧气浓度的变化量进行二次比对,结合大脑每个细胞的瞬时渗透压分析出的并翻译成了若干种语言的电子信号,得出了我要看毛片的结论,至于这个“毛片”是爱情动作片还是大型纪录片“毛泽东”,还需要当时空气中的二氧化硅质量分数,来确定我是否在为人民“服务”。

调侃而已,言归正传,我看这本书的动机就是想用大数据时代的统计精神来指导我的科研实践,而当我看到这一章的时候,起初内心是非常兴奋的,因为会有更多的信息被挖掘出来,为人类造福是肯定的。但一瞬间之后,就开始对自己现在做的所谓的采样调查性质的实验产生了必要性和可行性方面的思考,担忧自己的实验学科会在不远的将来会完全被计算机模型模拟而取代。仔细想想,如果科技水平还未达到上一段提到的那种水平时,我们所得到的总体还都是样本,我们也永远得不到真在的总体,除非人类的大脑达到极限或已经被机器征服。所以,实验学科当然还要快速发展下去。其实原书中也提到,大数据时代的样本=总体的概念对于社会科学的发展是颠覆性的,因为这门学科过去过分依赖样本分析、研究和调查问卷,而现在人文社会科学领域从业者可以搜集到很多过去搜集不到的信息,因此这个大数据时代是属于他们的。

毕竟,人还是要先把人研究透了,机器永远是人的仆人。

· The end ·