#安装各种数据分析库(本人使用mac系统,2.7版本python)
#在terminal中使用pip install 完成各种包的安装
sudo pip install numpy
sudo pip install scipy
sudo pip install matplotlib
sudo pip install scikit-learn
引入包文件
import math
import pandas as pd
import numpy as np
import scipy
import matplotlib
import sklearn
#读取csv文件
data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',names=column_names)
#将?替换成标准缺失值表示
data=data.replace(to_replace='?',value=np.nan)
#丢弃带有缺失值的数据(只要有一个维度缺失)
data=data.dropna(how='any')
#将原始数据分割为25%测试集,75%训练集
from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],test_size = 0.25,random_state=33)
#查验训练样本的数量和类别分布
print y_train.value_counts()
print y_test.value_counts()