1、数据清洗
缺失值处理(删除?填充?)
填充(固定值?均值?上下数据?插值函数?最可能的值?)
2、数据集成
(放一下import requests
from bs4import BeautifulSoup
import re
r=requests.get("https://book.douban.com/subject/1084336/comments/")
soup=BeautifulSoup(r.text,'lxml')
pattern=soup.find_all('span',{'class':'short'})
for itemin pattern:
print(item.string)
pattern = re.compile('<span class="user-stars allstar(.*?) rating"')
p = re.findall(pattern, r.text)
print(p)
3、数据变换(规范化,连续属性离散化,属性构造)
最小-最大规范化(sklearn-preprocessing)
z-score规范化(使用最多,均值为0)
小数定标规范化
连续属性离散化