使用PCA主要有三个作用:1). 大大节省后续运行机器学习的时间;2). 对数据可视化;3). 降噪。 以下将用sklearn中的手写数据集来看看这三个方面的作用。 1. 节...
使用PCA主要有三个作用:1). 大大节省后续运行机器学习的时间;2). 对数据可视化;3). 降噪。 以下将用sklearn中的手写数据集来看看这三个方面的作用。 1. 节...
在前面的文章《spark基础(上篇)》和《spark基础(下篇)》里面已经介绍了spark的一些基础知识,知道了spark sql是spark中一个主要的框架之一。本文我们通...
需要模块 pip install redispip install packet 实现代码 app.py main.py auth.py db.py users.py acc...
前段时间在面试橙鹰数据的时候被问了一道SQL执行顺序的题目,之前虽然写过很多sql,但是没有从一个更高的视角来看自己写的代码,更不要提该如何优化了。随着数据量的增大,掌握sq...
目录 引子 布隆过滤器介绍产生的契机设计思想优缺点与用途假阳性率的计算 Guava中的布隆过滤器BloomFilter类的成员属性BloomFilter的构造估计最优m值和k...
1,cdh的介绍 CDH是Apache Hadoop和相关项目的最完整,经过测试的流行发行版。 CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于...
一、消息队列Message Queue 两种模式 点对点模式点对点模式是一个基于拉取或轮询的消息传送模型,由消费者主动拉取数据,客户端需要实时开启一个线程监控队列中是否有数据...
Design Patterns for using foreachRDDdstream.foreachRDD is a powerful primitive that all...
面试很容易被问到,也容易被问倒!!!Hbase官网建议每张表的列族数建议设在1-3之间,so,Why?从5个方面说明以下问题: 列族数对Flush的影响 在Hbase中,调用...
事由 上周工作中遇到一个bug,现象是一个spark streaming的job会不定期地hang住,不退出也不继续运行。这个job经是用pyspark写的,以kafka为数...
背景: 项目需要读取Hbase并把计算结果保存在Hbase里供其他接口获取。 算法由pyspark实现。 原先Hbase的Thrift接口三天两头宕,而且性能低下。 充满糟点...
世界无奇不有,相信这些神器能帮你打开新视界的大门! 网站一:地图可视化生成器 网址:kepler.gl 一个地图数据可视化神器。导入数据分分钟生成吊炸天的地图,分分钟做出科幻...