在平常的一些的小规模的数据的过滤、清洗过程中使用最多的就是正则表达式,但是随着数据规模的增大,正则表达式就显得有些心有余力不足了。 【阅读全文】[https://mp.wei...
在平常的一些的小规模的数据的过滤、清洗过程中使用最多的就是正则表达式,但是随着数据规模的增大,正则表达式就显得有些心有余力不足了。 【阅读全文】[https://mp.wei...
早晨起床的时候,发现自己尿分叉,我没有多想,简单洗洗就匆忙出门。路过早餐店,我看到师傅熟练的拉扯一小块面团,拉至细长条,然后放入油锅中,不一会功夫,一根屎黄色的油条便出锅了,...
用Python处理数据大家都不陌生了,属于常规操作,但常规之下也还是暗藏技巧的,本篇就来分享6个好玩高效的操作,帮助大家提高效率。 一、Pandas Profiling Pa...
一、为什么要学习Spark SQL 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的...
作者:hooly微信公众号:一口袋星光 购物篮分析 利用关联分析的方法可以发现联系如关联规则或频繁项集。 二元表示 每一行对应一个事务,每列对应一个项,项用二元变量表示 项在...
《Pandas 1.x Cookbook》这本书一年前就出版了,关注的人不算多,但评价很高,而我也很喜欢Cookbook的系列。其实半年前就想做下这本书,无奈太忙,春节总算有...
我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。 了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 EDA(Explo...
Python 代码阅读合集介绍:为什么不推荐Python初学者直接看项目源码[https://mp.weixin.qq.com/s/7RqixavOlghqrTnr5GFee...
一、数据指标体系建设的意义 1.通过指标体系的梳理搭建能够更加全面的监控业务发展,及时准确的发现业务机会/问题。2.统一指标口径,降低公司内部数据对接时的沟通成本。 二、数据...