在数字化时代,数据处理变得更加容易、更加快速。人们能够在瞬间处理成千上万的数据。但当我们谈论能“说话”的数据时,我们指的远远不止这些。我们要学会利用所有的数据,而不是一小部分的数据。
在几十年前,我们记录、分析、存储数据还是只能用纸和笔。如今,随着科学技术的飞速发展,我们使用计算机处理数据的效率比以前大大提高,这样对我们研究全体数据就带来了许多的便利。
该书也谈到了随机采样的优点和缺点。但是大数据是指不用随机分析法这样的捷径,而是采用所有数据的方法。随着数据量的大幅增加就会造成结果的不准确。与此同时,一些错误的数据也会混进数据库。重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的,而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。
这就是像误差一样,是无法避免的,要接受误差。就比如说拿一个刻度为1cm的尺子去量一个苹果的高,发现苹果的高正好是12.5cm,但是拿一个更精密的尺子去量一个苹果,那就可能是12.52cm,12.53㎝。这就是无法避免的误差,我们要学会接受它。数据不可能完全错误,但为了了解大致的发展趋势,我们愿意对精确性做出一些让步。
通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。比如,想到”一个人拿起锄头”,我们就可以预测他可能要去挖地。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。
书中还谈到了数据的真实价值就像漂浮在海洋中的冰山。第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。比如说我们通常使用的百度,我们搜索过的关键词,就可以了解到社会各方面的趋势,英国央行通过搜索查询房地产的相关信息,更好地了解到了住房价格的升降情况。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。
但是我认为这也是有很大的弊端的,如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。这会导致人们的信息泄露,使人们失去隐私,让一些另有企图的不法分子有机可乘。因此,我们需要管理变革来保护个人隐私,从个人许可到让数据使用者承担责任。另外,需要注意个人动因与预测分析的平衡。在大数据时代,关于公正的概念需要人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他们的行为而非倾向负责。
大数据带来的是思维范式的根本性变革。我们将不再沉湎于历史和过去,试图解释某种联系,而是更好地觉知当下,与正在发声的未来。
相关推荐
© 2023-2025 百科书库. All Rights Reserved.
发表评价