大数据时代笔记

引言

量变导致质变

大数据的核心就是预测:把数学算法运用到海量的数据上来预测事情发生的可能性。

大数据时间的三个转变:

  • 可以分析更多的数据,处理和某个特别现象相关的所有数据,而不是随机采样,可以发现一些以前无法发现的细节。
  • 大数据不在追求精确度,只要掌握大体发展方向即可。即适当忽略微观层面的精确度会让我们在宏观层面拥有更好的洞察力。
  • 不在热衷于寻找因果关系,而是寻找事务之间的相关关系,即通过大数据告诉我们“是什么”而不是“为什么”。

大数据标志着人类在寻找量化和认识世界的道路上前进了一大步,过去不可计量、存储、分析和共享的许多东西都被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解世界打开了一扇大门。社会因此放弃讯在因果关系的偏好,开始挖掘相关关系的好处。

一、更多:不是随机样本、而是全体数据

全数据模式:“样本 = 总体”,利用所有的数据,而不再仅仅是依靠一小部分数据。

1.1 随机采样

统计学:用尽可能少的数据来证实尽可能重大的发现。(小数据时代的随机采样,最少的数据获得最多的信息)

采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大,导致认为样本选择的随机性比样本数据更重要。

随机采样是在不可收集和分析全部数据的情况下的一种选择,但是存在许多固有缺陷,严重依赖采样的随机性,一旦有任何偏见,分析结果就会相去甚远。

1.2 全数据模式

大数据是指不用随机分析法这样的捷径,而采用所有数据的方法,通过使用所有数据,可以发现容易在大量数据中淹没掉的情况。

二、更杂:不是精确性,而是混杂性

只有5%的数据是由结构化且能适用于传统数据库的,如果不接受混乱,剩下的95%的非结构化数据都无法被利用。

2.1 允许不精确

对于小数据,最基本、最重要的要求就是保证数据的质量,细小的错误会被放大,升值影响整个结果的准确性。

数据量的大幅增加会造成结果的不准确,一些错误数据也会混进数据库。为了规模的扩大,需要接受适量错误的存在。

2.2 大数据简单算法比小数据复杂算法更有效
2.3 纷繁的数据越多越好

掌握大量数据时,精确性就不那么重要了,同样可以掌握实情的发展趋势,大数据不仅不再期待精确性,也无法实现精确性。

错误并不是大数据固有的特性,而是一个积蓄我们去处理的现实问题,且可能长期存在。

2.4 混杂性,不是竭力避免,而是标准途径

当数据量规模变大的时候,确切的数量已经不那么重要了。

要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该竭力避免。

2.5 新数据库设计的诞生

相比依赖小数据的精确性,大数据强调数据的完整性和混杂性。

大的数据库并不是固定在某个地方,会分散在多个硬盘和多台电脑上,为了确保运行的稳定性和速度,一个记录可能会分开存在在两三个地方。如果一个地方的记录更新了,其他地方的记录只有同步才不会错误。传统的系统会等到更新完。但是当数据广泛分布在多台服务器上且时刻都会接受成千上万条搜索指令时,同步更新就不现实了。

三、更好:不是因果关系,而是相关关系

知道“是什么”就够了,没必要知道“为什么”。

3.1关联物,预测的关键

相关关系可以帮助我们捕捉现在和预测未来,而不是预知未来。

拥有大量数据以及更强的计算能力,不在需要人工选择一个关联物或者一小部分相似数据来逐一分析。

大数据的相关关系分析法更精确,更快,而且不易受偏见的影响。

建立在相关分析法基础上的预测是大数据的核心。

3.2 “是什么”,而不是“为什么”

相关关系很有用,不仅仅是因为能为我们提供新的视角,而且提供的视角很清晰,一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。如什么颜色车更容易发生车祸。

3.3 改变从操作开始

四、数据化:一切皆可“量化”

4.1 数据,从最不可能的地方提取出来

大数据的核心就是挖掘出庞大的数据库独有的价值。

4.2 数据化,不是数字化

数据化:把现象转变为可制表分析的量化形式的过程。

数字化:把模拟数据转换成0和1表示二进制码。

4.3 数据化的核心:量化一切

有了大数据的帮助,我们不会再将世界看做是一连串我们认为或是自然或是社会现象的时间,我们会意识到本质上世界石油信息构成的。

将世界看做信息,看作是可以理解的数据的海洋,为我们提供一个从未有过的审视现实的视角。

五、价值:“取之不尽,用之不竭”的数据创新

不同于物质性东西,数据的价值不会随着它的使用而减少,而是可以不断的被处理。即个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所耗损。

5.1 数据的选择价值

数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。

判断数据的价值需要考虑到未来它可能被使用的各种方式,而非仅仅考虑目前的用途。

在大数据时代,有了这种思维,创造力和工具,来释放数据的隐藏价值。

5.2 数据再利用

数据再利用对于那些收集或控制大型数据集但目前却很少使用的机构来说是个好消息。

5.3 重组数据

处于休眠状态的价值数据通过与两一个截然不同的数据集合才能释放出价值。

数据的总和比部分更有价值,当我们将多个数据集的总和重组在一起,重组总和本身的价值也比单位总和更大。

5.4 可扩展的数据

鼓励相同数据集的多种用途。

5.5 数据的折旧值

随着时间的推移,大多数据都会失去一部分用途,继续依赖于旧数据不仅不能增加价值,实际上还会破坏新数据的价值。

5.6 数据废气

它是用户在线交易的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。

数据废气可以成为公司的巨大竞争优势,有可能成为对手的强大进入壁垒。

5.7 开发数据

政府与企业数据持有人之间的主要区别就是,政府可以强迫人们为他们提供信息,而不必加以说服或支付报酬。

国家收集数代表的是其公民,因此它也理应提供一个让公民查看的入口,但少数可能会危害国家安全或他们隐私权的情况除外。

5.8 给数据估值

数据的价值是难以衡量的。

公司所持有和使用的数据渐渐纳入了无形资产的范畴。

估值办法:从数据持有人在价值提取上所采取的不同策略入手,最常见的一种可能性就是将数据授权给第三方。

六、角色定位:数据、技术与思维的三足鼎立

虽然数据和技术是不可或缺的,但是真正取得成功的是拥有大数据的思维观念,领先一步挖掘出数据的潜在价值。

大数据价值链三大构成:

  • 数据:这些公司拥有大量数据或者至少可以收集到大量数据,却不一定从书籍中提取价值或者利用数据催生创新思想的技能;
  • 技术:通常是咨询公司、技术供应商或者分析公司,掌握了一定专业技能但不一定拥有数据或提出数据创新性用途的才能;
  • 思维:拥有创新思维,怎么挖掘数据新价值的独特想法。

所谓大数据思维,是一种意识,认为公开的数据一旦处理得当就能为千百万人继续解决的问题提供答案。

七、风险:让数据主宰一切的隐忧

7.1 无处不在的第三只眼

互联网的出现使得监视变得更容易,成本更低廉而且也更有用处。进行大数据分析的人可以轻松地看到大数据的价值潜力,极大的刺激他们进一步采集、存储、循环利用我们个人数据的野心。

7.2 隐忧被二次利用

大数据的价值不再单纯来源于他的基本用途,而更多源于它的二次利用。

大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。

7.3 预测与惩罚,不是因为”所做”,而是因为”将做”

人们不是因为所做而受惩罚,而是因为将做,及时他们事实上并没有犯罪。如通过监控个人的生命体征、肢体语言和其他生理模式,发现潜在的恐怖分子。

如果大数据分析完全正确,那么我们未来会被精准预测,我们不仅会失去选择的权利,而且会按照预测区行动。当然精准预测是不现实的,大数据分析只能预测一个人未来可能进行的行为。

7.4 数据独裁

过度依赖数据,而数据远远没有我们所想的那么可靠。

只有得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成强大的武器。

7.5 挣脱大数据的困境

随着大数据预测的改进,可能会导致盲目的崇拜,毕竟它是如此的无所不能。

必须杜绝对数据的过分依赖。

八、掌控:责任与自动并举的信息管理

大数据时代,对原有规范的修修补补已经满足不了需求,也不足以抑制大数据带来的风险,需要的是全新的制度规范。

8.1 个人隐私保护:从个人许可到数据使用者承担责任

大数据时代,数据使用价值很大部分体现在二级用途上,收集数据时的告知与许可已经不能起到好的作用了。

应该设立一个不一样的隐私保护模式,更重于数据使用者为其行为承担责任,而不是将重心放到收集数据之处取得个人同意上。

8.2 个人动因VS预测分析

个人可以并应该为他们的行为而非倾向负责。毕竟法律是通过判断人们过去的行为使之为其行为承担责任。

如果国家做出的许多决策都是基于预测以及减少风险的愿望,就不存在所谓个人的选择了,也不用提自主行为的权利。

8.3 击碎黑盒子,大数据程序员的崛起

大数据预测、运算法则和数据库有变为黑盒子的风险,这个黑盒子不透明、不可解释、不可追踪。基于此,大数据需要被监测和保持透明度。

外部程序员:扮演审计员的角色,对大数据的有效程度及准确性进行鉴定。

内部程序员:监控大数据活动、运转。公布大数据分析结果前,对结果完整性和准确性进行审查。

8.4 反数据垄断大亨

监管人员可以学习反垄断法,避免数据交易过程中的垄断。

发表回复