屁话不多了,此次学习笔记旨在巩固理论,付诸代码,知道典型的模型及算法,另外也训练下自己的表达能力。
1. supervised learning
2. unsupervised learning
3. model selection and evaluation
4. datasets transformations
5. datasets loading utilities
6. strategies to scale computationally: bigger data
7. computational performance
先列出大纲,共六部分
1. Classification
目标:识别物体属于哪个类;
应用:spam detection(垃圾邮件检测),image recognition(图像识别)
举例:SVM,nearest neighbour,random forest
2. Regression
目标:预测一个物体的某个属性的连续值
应用:Drug response(药物反应),stock prices(股票价格)
举例: SVR,ridge regression,Lasso
3. Clustering
目标: 自动将相似的物体归成一个集合
应用: customer segmentation(顾客分割),grouping experiment outcomes(分组实验)
举例:K-means,spectral clustering(谱聚类),mean shift
4. Dimensionality reduction
目标: 减少随机变量的数量
应用:视觉化, 增加效率
举例:PCA,feature selection, non-negative matrix factorization(非负矩阵分解)
5. Model selection
目标:比较,校验,选择参数和模型
应用: 通过调整参数来改善准确率
举例:grid search, cross validation, metrics
6. Preprocessing
目标: feature extraction and normalization
应用:转化下输入数据,比如文字,用于ML算法
举例:preprocessing, feature extraction