一. K-近邻法
将计算目标数据与所有样本数据的距离,获取距离最近的*K*个元素.认为目标数据与这*K*个元素属性一致.
电影名称 | 打斗镜头 | 接吻镜头 | 电影类型 |
---|---|---|---|
a | 3 | 104 | 爱情片 |
b | 2 | 100 | 爱情片 |
c | 102 | 3 | 动作片 |
d | 98 | 8 | 动作片 |
e | 10 | 87 | 爱情片 |
给出电影f,打斗镜头:5
,接吻镜头97
.计算最近3(K)个(自行脑补坐标轴),类型为爱情片
二. 决策树
你是否玩过二十个问题的游戏:参与游戏的一方在脑海里想某个事物,其他参与者向他提问题,只允许提20个问题,问题答案只能用对和错回答.问问题的人通过推断分解,逐步缩小猜测事物的范围,最终给出游戏的答案
如何构造问题?
熵? 信息的期望值
.热力学中的熵
表示分子状态混乱程度的物理量.信息熵,是一种对信息混乱程度的量化描述.
变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低
反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。
信息 如果待分类的事物可能划分在多个分类之中.则符号l(xi) = -log2P(xi)
P(xi)为选择该分类的概率.
计算熵 计算所有类别所有可能值包含的信息期望值.H = - ∑ni=1P(xi)log2P(xi),其中n为分类目录.
个人简单的认为:自定义分类,然后计算这个分类的熵.添加更多分类,观察熵的变化.(感觉没这么简单,可能最终衡量出一套,因为这个划分影响决策树下一分支的划分).按获取最大信息增益
方式化分出数据.去划分数据集.创建决策树.