1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara ...
数据库数据字典表查询: SELECT COL.TABLE_NAME, TT.COMMENTS, COL.COLUMN_NAME...
一、基本统计分析 1、描述性统计分析 (1)summary() apply函数族 分组描述性统计 group /by/reshape (2)频数...
一.什么是缺失值,NA与NULL的区别 (1)NA表示数据集中的该数据遗失、不存在。在针对具有NA的数据集进行函数操作的时候,该NA不会被直接剔...
文本挖掘现在是无处不在啊,之前在工作中涉及到一些文本挖掘的问题,但都不是很深入。最近在复习机器学习算法,看到贝叶斯分类,其中有一类就涉及到文本分...
交叉分类(列联表)和卡方检验 交叉分类问题 比较和对照是进行科学研究的基本手段。对于间距测度和比例测度的资料,进行分组比较时可以用均数检验、方差...
数据结构 一、数据管理 vector:向量 numeric:数值型向量 logical:逻辑型向量 character;字符型向量 list:列...
http://www.cnblogs.com/payton/p/5567778.html library(recharts) barnline<...
1、三种常见的清洗数据 1)重复值数据 定义:把数据结构中,行数据相同的剔除 unique 函数语法: unique (x) 案例: 导入csv...