菜行 - 简书

发简信

菜行

24
关注
0
粉丝
0
文章
0

字数
0

收获喜欢
73

总资产

IP属地：四川

菜行

PCA的推导与求解（三）— PCA的作用
使用PCA主要有三个作用：1). 大大节省后续运行机器学习的时间；2). 对数据可视化；3). 降噪。以下将用sklearn中的手写数据集来看看这三个方面的作用。 1. 节...

生信编程日常
1755 0 7
菜行

sparksql执行流程分析
在前面的文章《spark基础（上篇）》和《spark基础（下篇）》里面已经介绍了spark的一些基础知识，知道了spark sql是spark中一个主要的框架之一。本文我们通...

ZPPenny
21676 2 36 2

菜行

Tornado实战-用户登录与注册
需要模块 pip install redispip install packet 实现代码 app.py main.py auth.py db.py users.py acc...

Python野路子
8850 5 52
菜行

hiveSQL的执行顺序以及hive优化
前段时间在面试橙鹰数据的时候被问了一道SQL执行顺序的题目，之前虽然写过很多sql,但是没有从一个更高的视角来看自己写的代码，更不要提该如何优化了。随着数据量的增大，掌握sq...

YFSZ
4822 2 2
菜行

acumen_leo
写了 65651 字，被 316 人关注，获得了 218 个喜欢
菜行

hooly
写了 55494 字，被 326 人关注，获得了 376 个喜欢

只是一个经常思考人生的产品经理
菜行

aaronisme
写了 15782 字，被 57 人关注，获得了 36 个喜欢

Software Engineer， Hacking for Life

菜行

布隆过滤器（Bloom Filter）原理及Guava中的具体实现
目录引子布隆过滤器介绍产生的契机设计思想优缺点与用途假阳性率的计算 Guava中的布隆过滤器BloomFilter类的成员属性BloomFilter的构造估计最优m值和k...

LittleMagic
30282 5 46
菜行

cdh的在线搭建
1，cdh的介绍 CDH是Apache Hadoop和相关项目的最完整，经过测试的流行发行版。 CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于...

小小毛同学
1710 2 13
菜行

Apache Kafka详解
一、消息队列Message Queue 两种模式点对点模式点对点模式是一个基于拉取或轮询的消息传送模型，由消费者主动拉取数据，客户端需要实时开启一个线程监控队列中是否有数据...

上杉丶零
3959 3 51
菜行

PySpark_Streaming+DBUtils+MySQL
Design Patterns for using foreachRDDdstream.foreachRDD is a powerful primitive that all...

一ke大白菜
799 0 2
菜行

Hbase--为什么不建议在Hbase中使用过多列族
面试很容易被问到，也容易被问倒！！！Hbase官网建议每张表的列族数建议设在1-3之间，so，Why?从5个方面说明以下问题：列族数对Flush的影响在Hbase中，调用...

李小李的路
3161 1 11

菜行

pyspark与py4j线程模型简析
事由上周工作中遇到一个bug，现象是一个spark streaming的job会不定期地hang住，不退出也不继续运行。这个job经是用pyspark写的，以kafka为数...

Garfieldog
6035 2 12
菜行

关于spark-hbase在pyspark上的那些破事
背景: 项目需要读取Hbase并把计算结果保存在Hbase里供其他接口获取。算法由pyspark实现。原先Hbase的Thrift接口三天两头宕，而且性能低下。充满糟点...

咩咩红莉栖
3142 0 3
菜行

让你欲罢不能逆天的神级网站
世界无奇不有，相信这些神器能帮你打开新视界的大门！网站一：地图可视化生成器网址：kepler.gl 一个地图数据可视化神器。导入数据分分钟生成吊炸天的地图，分分钟做出科幻...

小白明
28622 29 1084

暂无个人介绍