机器学习之数据规范化

1、为什么要做数据规范:

是为了减少数据在可视化是的距离差异:(如:将数据 X1薪水:4023、5000、8000 X2年龄:40、33、30,将这些数据按照一定的比例尽量处理到-1跟1之间),这个句话可能只有我自己能理解,


数据规范化草图,比如age 20,30 薪资100234,343424242,两列之间偏差很大

2、用Python处理数据规范化

#数据分割 1、验证模型做得对不对  (一块用了训练模型,一块数据用来验证模型的正确性)

from sklearn.cross_validation import train_test_split

X_train, X_text, Y_train, Y_test = train_test_split(X,Y,test_size = 0.2,random_state = 0)

#数据规范化(减少数据之间的差异,如 4000 100 200 ,-1到1之间,按照一定比例缩放)

from sklearn.preprocessing import StandardScaler

sc_X = StandardScaler()

X_train = sc_X.fit_transform(X_train)

X_text = sc_X.fit_transform(X_text)

3、R语言处理数据规范化

datasets = read.csv('Data.csv')

#missData 缺失数据填充

datasets$Age = ifelse(is.na(datasets$Age),ave(datasets$Age,FUN = function(x) mean(x, na.rm = TRUE)),

datasets$Age)

datasets$Salary = ifelse(is.na(datasets$Salary),ave(datasets$Salary,FUN = function(x) mean(x, na.rm = TRUE)),

datasets$Salary)

#数据明确

datasets$Country = factor(datasets$Country,levels = c('France','Spain','Germany'), labels = c(1,2,3))

datasets$Purchased = factor(datasets$Purchased,levels = c('No','Yes'), labels = c(1,2))

#数据分割

#用

library(caTools)

#set.seed(123)里面有数据就是随机处理

set.seed(123)

split = sample.split(datasets$Purchased, SplitRatio = 0.8)

training_set = subset(datasets, split == TRUE) #80%

test_set = subset(datasets, split == FALSE) #20%

#数据规范化(缩放)

training_set= scale(training_set)

test_set= scale(test_set)

这个数据在R数据处理数据规范化得时候会遇到一个坑,提示‘X’必需为数值


R语言遇到一个坑

数值?数字?

因为原本datasets$Purchased是True false 我们转成了1、2, 这个时候的1、2是数字,还不是数值,所以这个时候我们要注意,

因为这个 时候我们是需要对Age 和 Salary 处理就可以

training_set[,2:3 ] = scale(training_set[, 2:3])

test_set[,2:3 ] = scale(test_set[,2:3 ])

运行代码后,这个时候看到规范后的数据了,数值很靠近,接近-1和1之间。

training_set

Country        Age    Salary Purchased

2      2 -1.42857869 -1.1397581        2

3      3 -1.05088836 -0.6631119        1

4      2 -0.04371416 -0.1070247        1

5      3  0.20807939  0.1136448        2

6      1 -0.42140448 -0.3453478        2

7      2  0.05420556 -0.8219940        1

8      1  1.21525360  1.3229138        2

9      3  1.46704715  1.6406780        1

ok,这就是Pythonh和R语言的数据规范化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,045评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,114评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,120评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,902评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,828评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,132评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,590评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,258评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,408评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,335评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,385评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,068评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,660评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,747评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,967评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,406评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,970评论 2 341

推荐阅读更多精彩内容