16篇文章 · 23606字 · 2人关注
RAID将数据分片后在多块磁盘上并发进行读写访问,从而提高了存储容量、加快了访问速度,并通过数据的冗余校验提高了数据的可靠性,即使某块磁盘损坏也...
Spark的计算阶段 我们可以对比来看。首先和MapReduce一个应用一次只运行一个map和一个reduce不同,Spark可以根据应用的复杂...
Spark简述 下图是Spark和MapReduce进行逻辑回归机器学习的性能比较,Spark比MapReduce快100多倍。 除了速度更快,...
推荐引擎的思想其实很早就存在了,后来随着大数据技术的发展,推荐引擎的普及程度和重要性也越来越高,淘宝曾经就主推“千人千面”,要让每个用户打开的淘...
挖掘数据的典型应用场景有搜索排序、关联分析以及聚类,下面我们一个一个来看,希望通过今天的学习,你能够了解数据挖掘典型场景及其应用的算法。 搜索排...
KNN分类算法 KNN算法,即K近邻(K Nearest Neighbour)算法,是一种基本的分类算法。其主要原理是:对于一个需要分类的数据,...
复制模式(Copier Pattern) 过滤模式(Filter Pattern) 分离模式(Splitter Pattern) 合并模式(Jo...
运营数据的获得,需要在应用程序中大量埋点采集数据,从数据库、日志和其他第三方采集数据,对数据清洗、转换、存储,利用SQL进行数据统计、汇总、分析...
文集作者