我是从负责运输公司的财务转行成为运输的数据分析的。转行大概准备了半年多,不知道能不能算迅速。 首先是数据处理能力,例如京东系统中发车数据、装货数据、客户下单数据,可以用海量形...
IP属地:上海
我是从负责运输公司的财务转行成为运输的数据分析的。转行大概准备了半年多,不知道能不能算迅速。 首先是数据处理能力,例如京东系统中发车数据、装货数据、客户下单数据,可以用海量形...
一、概念 人工神经网络是是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。这种模型可以适用于分类与回归。 神经网络的优点:可以把非线性做的特别好,拟合能力特别强,...
特征处理包括:数据清洗和特征预处理。 一、数据清洗: 1.数据样本抽样 ①样本要具备代表性 ②样本比例要平衡以及样本不平衡时如何处理 ③考虑全量数据 2.异常值处理 2.1...
一、概念 LDA:Linear Discriminant Analysis 线性判别式分析 (NOT:在文本分析领域,还有个LDA的概念,全称为隐含狄利克雷分布(Latent...
特征选择就是剔除与标注不相关或者冗余的特征,它是数据归约的思路之一(另一个思路为抽样) 特征选择主要包括三种思想:过滤思想、包裹思想和嵌入思想。 编程实现: 第一步,导入必要...
相关分析最常用的方法就是用相关系数直接衡量连续值的相关性,而离散属性的相关性是用熵增益转换成相关性的形式来衡量。 一、分析连续值的相关性: Pearson相关系数及Spear...
分析思路: 先导入pandas、numpy包; 定义一个myPCA,传入data及n_components参数,并设置components为1000000维; ①先求每个属性...
分析思路: 1.导入必要的包(pandas,numpy,scipy.stats,matplotlib.pyplot,seaborn) 2.读取文件,为df 3.按 depar...