使用PCA主要有三个作用:1). 大大节省后续运行机器学习的时间;2). 对数据可视化;3). 降噪。 以下将用sklearn中的手写数据集来看看这三个方面的作用。 1. 节...
IP属地:四川
使用PCA主要有三个作用:1). 大大节省后续运行机器学习的时间;2). 对数据可视化;3). 降噪。 以下将用sklearn中的手写数据集来看看这三个方面的作用。 1. 节...
在前面的文章《spark基础(上篇)》和《spark基础(下篇)》里面已经介绍了spark的一些基础知识,知道了spark sql是spark中一个主要的框架之一。本文我们通...
需要模块 pip install redispip install packet 实现代码 app.py main.py auth.py db.py users.py acc...
前段时间在面试橙鹰数据的时候被问了一道SQL执行顺序的题目,之前虽然写过很多sql,但是没有从一个更高的视角来看自己写的代码,更不要提该如何优化了。随着数据量的增大,掌握sq...
目录 引子 布隆过滤器介绍产生的契机设计思想优缺点与用途假阳性率的计算 Guava中的布隆过滤器BloomFilter类的成员属性BloomFilter的构造估计最优m值和k...
1,cdh的介绍 CDH是Apache Hadoop和相关项目的最完整,经过测试的流行发行版。 CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于...