在因果推断的学习中,遇到了ATE、ATC、ATT三个词,感觉很抽象不好理解。直到在油管上看到一个视频,解释得比较容易理解,在此记录下来。用上面这一张图,就可以理解这三个概念。...
在因果推断的学习中,遇到了ATE、ATC、ATT三个词,感觉很抽象不好理解。直到在油管上看到一个视频,解释得比较容易理解,在此记录下来。用上面这一张图,就可以理解这三个概念。...
在Python上做PSM,可以使用causalinference这个库。以下介绍使用方法。 这个数据集是员工的个人信息(经验、性别、种族等等)和工资。假如我们要看性别这一个因...
之前配置应用过的一些SQL应用函数,留作记录。 截断日期类型函数date_trunc() 根据指定的日期部分截断时间戳表达式或文字。语法:date_trunc(datepar...
考察:Spark和Hadoop运行机制的理解,对技术应用场景的敏感性和理解程度,这对工作的具体质量有很大的影响。 Spark SQL比Hadoop Hive快,是有一定条件的...
一、什么是埋点 所谓埋点是数据领域的专业术语,也是互联网应用里的一个俗称。它的学名应该叫做事件追踪,对应的英文是Event Tracking。它主要是针对特定用户行为或事件进...
https://www.cnblogs.com/dreamingbaobei/p/9717234.html search方法,进行比对查找 也可以: 前面的字符串是规则,后面...
文本挖掘也称为文本分析,文本挖掘是探索大量文本数据并查找模式的过程,我们将学习NLTK这个包,他功能强大,提供了一组多种自然语言算法。让我们一起来看看吧~ 首先,要在你的电脑...
接着上一篇nltk的学习笔记,今天我们继续来看看nltk更多的内容~ Stopword 停用词: 停用词在文本中被视为噪音。文本可能包含停用词,例如is,am,are,thi...
最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。 Step1: Exploratory Data Analysis EDA,也就是对数据...