《大数据时代》摘抄
- 大数据的核心就是预测。……这些预测系统之所以能够成功,关键在于它们是建立在海量数据的基础之上的。
- 分析信息时的三个转变:
- 我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
- 研究数据如此之多,以至于我们不再热衷于追求精确度。
- 第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系(而应该寻找事物之间的相关性)。
第一部分 思维变革
-
採样分析的精确性随著採样随机性的增加而大幅提高,但与样本数量的增加关係不大。
- 样本选择的随机性比样本数量更重要
- 但是实现採样的随机性非常困难
-
大数据是指不用随机分析法这样的捷径,而採用所有数据的方法。
-
我们总是习惯把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是為了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。
-
数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,……我们从不认為这些问题是无法避免的,而且也正在学会接受它们。这就是由「小数据」到「大数据」的重要转变之一。
-
数据多比少好,更多数据比算法系统更智能还要重要。
谷歌翻译不再有一对一的翻译微调了。这可能就是放弃了机器翻译,而改用大数据、大语言模型翻译。
-
错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。……混乱应该是一种标准途径,而不应该是竭力避免的。
-
只有 5% 的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下 95% 的非结构化数据都无法被利用,比如网页和视频资源。
-
亚马逊的推荐系统梳理出了有趣的相关关係,但不知道背后的原因。知道是什么就够了,没必要知道為什么。
-
因為不受限于传统的思维模式和特定领域裡隐含的固有偏见,大数据才能為我们提供如此多新的深刻洞见。
第二部分 商业变革
-
ReCaptcha 的故事强调了数据再利用的重要性。
-
不同于物质性的东西,数据的价值不会随著它的使用而减少,而是可以不断地被处理。
- 大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。
- 大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。
-
所谓大数据思维,是指一种意识,认為公开的数据一旦处理得当就能為千百万人急需解决的问题提供答案。
第三部分 管理变革
-
大数据為监测我们的生活提供了便利,同时也让保护隐私的法律手段失去了应有的效力。
-
大数据诱使我们犯下罗伯特·麦克纳马拉所犯的罪行,也让我们盲目信任数据的力量和潜能而忽略了它的局限性。
-
大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判,而不是借助「客观」数据处理去决定他们是否违法。