“除了上帝,任何人都必须用数据说话。”这是美国质量管理学之父,爱德华兹·戴明所说的一句话。这句话足以阐明大数据在我们生活中的重要地位。数据已经变成我们生活中无处不在的影子,不断地活动着。数据已经渗透到今天的每个行业和业务功能领域,并已成为重要的生产要素。
《大数据时代》被誉为“大数据商业应用第一人”维克托·迈尔·舍恩伯格所著,他提出了关于大数据的“掷地有声”的三个原则,分别是:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。人类早就知道处理全量数据的好处,但在今天机器处理能力有了巨大提升的时代,限制绝大多数应用的瓶颈不是计算能力而是数据采集能力。但即便如此,抽样数据所针对的许多应用场景仍很难收集全量数据。
使用抽样数据时,我们知道要容忍一定的误差,甚至在取得“全样”数据时,也可能会因各种原因出现不精确的情况,这在统计实践中有很多案例。人类从未奢望过我们通过数据分析取得的多数结论是精确的,我们必须在信息混杂的情况下做出大多数的决策。计算机提供给我们的结论都是相关性,因果关系是人类在数据基础上进行的人为判断。确定因果关系需要更多的精力和投入。
对于这些原则,书中的作者显得很有新意,将一直由数据分析人员秉持的原则,我们应经常审视这些原则,确认自己的思想是否僵化且过时。我认为,从事IT工作和数据工作的人都值得一读此书,书中展示了很多案例,值得作为参考和启发思维。
相关推荐
© 2023-2025 百科书库. All Rights Reserved.
发表评价