错误(不精确)并不是大数据固有的特性,它只是我们用来测量、记录和交流数据的工具或方法的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。虽然说错误(不精确)是一个亟需我们去处理的现实问题,并且有可能长期存在,但拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以我们通常不会花费大量力气去提升有限的精确性。
亚马逊网站的工程师对“书评家在线评论”及“大数据计算个性推荐”两种不同的促销手段做了测评,发现“大数据计算个性推荐”的销售贡献远远超过书评家。在传统思维中,销售人员被告知他们需要了解客户所做决定背后的真正原因,因此专业技能和多年经验受到高度重视。但本案例说明,推荐算法模型可能不知道为什么喜欢海明威作品的客户会购买菲茨杰拉德的书,但这似乎并不重要,重要的是销量。现如今,亚马逊销售额的三分之一都来自于它的个性化推荐系统。所以,知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。“重点不是找出因果关系,而是找出相关关系”。