屹然1ran - 简书

发简信

0
关注
12
粉丝
22
文章
17579

字数
21

收获喜欢
1

总资产

IP属地：上海

屹然1ran ·

回不回去过年在结婚第一年就要谈好，不是临了才决定的，他这么不顾你和二宝，估计不是他一个人的问题，你们要好好交流交流，找到问题所在，找到解决问题的方法，不能听之任之，家庭是需要经营的，出问题也不是哪一个人的问题，应该双方都有责任！

真玉儿评论自孤单的滋味
屹然1ran

从零开始AB测试
1. AB测试简介 1.1 什么是AB测试 A/B测试[https://zh.wikipedia.org/wiki/A/B%E6%B8%AC%E8%A9%A6]为一种随机测...

1199 1 0

屹然1ran

正则表达式教程
1. 简介正则表达式[https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F...

516 0 1
屹然1ran

Hive SQL - 复制最后一个非空值 The Last non-NULL Puzzle
1. 启发在业务上，我们常常会碰到这样的需求例如原始表如下： uidstatetimea10anull1anull2a33bnull4b25bnull6 需要变成如下： u...

1734 0 2
屹然1ran

机器学习[1.1] - Mann-Whitney U Test与ROC、AUC
在了解U统计量与AUC之间的关系前，先复习一下Mann-Whitney U Test首先放上AUC在统计上的意义：随机选取一个正例和一个负例，分类器给正例的打分大于分类器给...

1276 0 2
屹然1ran

机器学习[3] - 监督模型之树模型
1. 基本概念决策树模型为非参数监督模型，该模型为根据一系列的if-else逻辑组合而成。树可以看作是一个分段函数，并且树的层数越深，就会更贴合数据(fitted)。显然...

865 0 1
屹然1ran

机器学习[1] - 模型评估与选择
评估方法留出法 Hold-out“留出法”将两个数据集拆分为两个互斥的集，一般训练集为70%，测试集为30%。这样使用测试集得出的测试误差(testing error)更具...

635 0 4

屹然1ran

机器学习[2] - 监督模型之线性模型
关于机器学习整体的概念，例如监督模型与无监督模型的概念，见笔者的之前的一篇文章机器学习入门[https://www.jianshu.com/p/7bb45c460e6b] 线...

972 0 0
屹然1ran

plydata包 - Python中的dplyr Pipe(管道)数据处理方式
Hassan Kibirige[https://github.com/has2k1]开发的plydata[https://github.com/has2k1/plydata]...

741 0 2
屹然1ran

Python数据分析[4] - 数据整理 Data Wrangling
多维Index Columns和Rows都可以创建多层Index 每层的index也可以拥有自己的名字 Index排序根据Level聚合表连接表拼接数据透视&逆透视 ...

504 0 0
屹然1ran

Python数据分析[3] - Pandas包
Series Series是一个一维的向量，每个值都会有对应标签，该标签我们称之为Index 通过Index可以对Series进行查询以及修改 Numpy函数，以及其他类Nu...

294 0 0
屹然1ran

Python数据分析[2] - Numpy包
ndarry: 多维度的向量 Numpy为Numerical Python的缩写，是数据分析最重要的包之一，很多数据分析相关的包会依赖Numpy中的向量类型。向量类的数据配...

216 0 0

屹然1ran

Python数据分析[1] - python基础
Python基础数据类型 tuple tuple是一个固定长度，不可修改的对象 tuple可以tuple中的一个元素 tuple可以将一个Sequence转换为tuple ...

476 0 0
屹然1ran

Learning Spark [9] - MLlib库 - Tree-Based模型
基于树模型(Tree-Based Models) 基于树模型，比如决策树，梯度提升树，随机森林等，相对比回归模型，是较为好解释的(Interpret) 决策树(Decisio...

424 0 0
屹然1ran

Learning Spark [8] - MLlib库 - 线性回归
机器学习数据管道(Machine Learning Pipeline) Pipeline的概念，在很多机器学习的模型中都存在，是一个种整理以及操控数据的方法。在MLlib中，...

403 0 0
屹然1ran

Learning Spark [7] - 机器学习入门
在学习Spark的MLlib之前，我们简略的回忆整理一下机器学习的概念。 Machine Learning(机器学习) 机器学习模型主要有以下几种分类： Supervised...

338 0 1
屹然1ran

数仓利器-Hive高频函数合集
前言 Hive是数仓建设使用频率最高的一项技术，基于各种业务需求，使用功能函数会为我们的开发提高了很多效率。本篇是基于笔者在日常开发中使用频率较高的函数做一次总结(同时也会给...

Bloo_m
456 0 2

屹然1ran

Learning Spark [6] - Spark SQL高级函数
collect, collect_list, collect_set collect常用的有两个函数：collect_list(不去重)和collect_set(去重) co...

1251 0 2
屹然1ran

Learning Spark [5] - UDF(User-defined Function)
UDF 为了满足用户的不同的分析需求，Spark允许使用者自己定义函数，供用户在Spark SQL中使用。例如数据科学家可以将一个机器学习模型封装在一个函数内，提供给数据分析...

365 0 0
屹然1ran

Learning Spark [4] - Spark SQL
Spark SQL为Spark提供了以下几个特性：提供高级结构框架的API(见Learning Spark [3]) 允许读取不同格式的数据(json, hive, tab...

360 1 2

个人介绍

个人主页见 lifanyiran.com
喜欢哲学和唱歌的数据分析师