红酒数据集分析
天池项目链接:https://tianchi.aliyun.com/notebook-ai/detail?postId=4662
数据集下载地址:http://archive.ics.uci.edu/ml/datasets/Wine+Quality
github:https://github.com/oliveeeeee/Machine-Learning-Project
主要目的在于展示数据分析的常见python包的调用,以及数据可视化。主要内容分为:单变量,双变量,和多变量分析。
相关python包:matplotlib.pyplot,seaborn
数据样本观测
1、数据量
red:(1599, 12)
white:(4898, 12)
2、数据类型
均为数值型。
3、缺失值
无缺失值。
4、统计描述
单变量分析
1、箱型图:看单变量的分布,常用来找异常值
2、直方图:看单变量的分布,是否正态,是否左右偏,有几个高峰等
3、解读
品质:
品质的评价范围是0-10,这个数据集中范围是3到8,有82%的红酒品质是5或6。
酸度:
这个数据集有7个酸度相关的特征:fixed acidity, volatile acidity, citric acid, free sulfur dioxide, total sulfur dioxide, sulphates, pH。前6个特征都与红酒的pH的相关。pH是在对数的尺度,下面对前6个特征取对数然后作histogram。另外,pH值主要是与fixed acidity有关,fixed acidity比volatile acidity和citric acid高1到2个数量级(Figure 4),比free sulfur dioxide, total sulfur dioxide, sulphates高3个数量级。一个新特征total acid来自于前三个特征的和。
甜度:
Residual sugar 与酒的甜度相关,通常用来区别各种红酒,干红(<=4 g/L), 半干(4-12 g/L),半甜(12-45 g/L),和甜(>45 g/L)。 Red数据中,主要为干红,没有甜葡萄酒。White数据中,dry(<4)和medium dry(4-12)较多。
双变量分析
1、多类型箱型图:可用于比较不同类型的分布或按不同类别进行比较。
查看红酒品质和理化特征的关系。
2、热力图:直观展示两两变量之间的相关程度。
解读:
品质好的酒有更高的柠檬酸,硫酸盐,和酒精度数。硫酸盐(硫酸钙)的加入通常是调整酒的酸度的。其中酒精度数和品质的相关性最高。
品质好的酒有较低的挥发性酸类,密度,和pH。
残留糖分,氯离子,二氧化硫似乎对酒的品质影响不大。
3、散点图,线性回归
展示密度和酒精浓度的关系、酸性物质含量和pH的关系。
解读:
密度和酒精浓度是相关的,物理上,两者并不是线性关系。
pH和非挥发性酸性物质有-0.683的相关性。因为非挥发性酸性物质的含量远远高于其他酸性物质,总酸性物质(total acidity)这个特征并没有太多意义。
多变量分析
散点图
观测酒精浓度,挥发性酸和品质三者间的关系,pH,非挥发性酸,和柠檬酸三者间的关系。
解读:
对于好酒(7,8)以及差酒(3,4),关系很明显。但是对于中等酒(5,6),酒精浓度的挥发性酸度有很大程度的交叉。
pH和非挥发性的酸以及柠檬酸有相关性。整体趋势也很合理,即浓度越高,pH越低。
总结
整体而言,红酒的品质主要与酒精浓度,挥发性酸,和柠檬酸有关。对于品质优于7,或者劣于4的酒,直观上是线性可分的。但是品质为5,6的酒很难线性区分。