《大数据时代》摘抄
- 大数据的核心就是预测。……这些预测系统之所以能够成功,关键在于它们是建立在海量数据的基础之上的。
- 分析信息时的三个转变:
- 我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
- 研究数据如此之多,以至于我们不再热衷于追求精确度。
- 第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系(而应该寻找事物之间的相关性)。
第一部分 思维变革
-
採样分析的精确性随著採样随机性的增加而大幅提高,但与样本数量的增加关係不大。
- 样本选择的随机性比样本数量更重要
- 但是实现採样的随机性非常困难
-
大数据是指不用随机分析法这样的捷径,而採用所有数据的方法。
-
我们总是习惯把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是為了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。