版权所有。转载请保留作者和原文链接信息。 随机变量 随机变量是统计学最基本的研究对象,是各种定理、模型、推断的基础。 概率 概率是用来衡量随机变...
版权所有。转载请保留作者和原文链接信息。 描述性统计分析是是对数据的探索和了解,也是数据分析和数据挖掘的初步工作,常用到一些基本的统计指标和可视...
许多数据分析师都是用HIVE SQL跑数,这里我建议转向PySpark: PySpark的语法是从左到右串行的,便于阅读、理解和修正;SQL的语...
中国原创音乐基地(5sing) 是一个以网友原创音乐为主的音乐平台。与主流音乐平台不同,用户在5sing上并不主要是为了听知名歌手的音乐,而是可...
推荐系统是一种在电商、广告、内容等互联网平台发挥着巨大商业价值的数据挖掘产品形态,它可以提高用户黏性、提高用户商业转化行为,一款好的推荐系统可以...
用以前爬的知乎用户行为数据,跑了一下Apriori算法,发现了一些有意思的关联规则。以下是简略的分析过程。 数据采集 数据怎么来的?当然不是知乎...
事情起因是这样的:在某个搞技群里有人发了一个11维的蜜汁微笑矩阵用来逼死密集恐惧症—— 于是有人用一个[擦汗]的表情表示无语……可是仅仅一个表情...
分布式爬虫与爬虫的区别是什么?多了“分布式”三个字。 分布式爬虫的动机 那么什么是分布式?严谨学术的概念就不搬过来了。大致来说,就是需要计算的数...
Linear Regression Ridge Regreesion and Lasso Logistic Regression K-Neare...
文集作者