-
非线性变换。对于线性不可分的情况, 可以进行非线性变换(可能增加VC dimension)。变换之后的坐标之间是有冗余的, 有可能存在关联关系, 所以是小于等于号。
-
两个不可分的例子。 第一个例子是接近于线性可分的, 第二个例子是线性不可分的。第一个例子显然如果坚持要Ein=0, 就必须到高维空间Z; 第二个例子是如果映射到6维空间, 根据VC理论, 需要的训练数据也会更多, 我们可以降到三维, 两维, 一维, 但是我们是怎么知道要怎么做的呢——相当于先偷看了数据, 这样子泛化能力一定差。
-
OK, 下面要讲的都是logistic regression了。先总结如下,我们的出发点都是s=w^Tx这种表达开始, 然后linear classification是用sign function做分类(hard), linear regression是输出real value, 并且有closed form 的解, 下面要讲的logistic regression是对s进行非线性变换, 并且让它有概率形式的表达。
-
Error measure。 我们用概率似然来表达, 当然是希望概率越大越好。 并且观察到\theta(-s) = 1 - \theta(s)。 于是概率的表达可以同样表达成\theta(yw^Tx)。 最大化似然概率, 得到了交叉熵的表达。
-
learning。现在不像linear regression那样有closed form的解了, 而是需要随机梯度下降的方法了。logistic regression with cross entropy
loss 有一个好的性质, 就是它只有一个global minimum, 所以我们不用担心local minimum的问题了。 但是, 如何得到迭代的方向呢, 首先得到Ein的变化率,第二个等式是根据导数推导出来f(x) - f(x') = f'(x)(x - x'), 泰勒一阶展开。 因为v是unit vector,[-1, 1], 所以有第三个不等式。 而只有v等于最后的公式的时候, 等式才成立。
-
学习率的问题, 太大太小都不好。可以看到, 一开始可以用比较大的学习率, 然后用比较小的学习率, 也就是说学习率与Ein的变化量大小成正比, 那么再把||Ein||乘进去, 我们得到了最终的表达(学习率固定!), 它有如learning curve 3的表现。
-
算法如下。 有几个问题是值得考虑的: 权重的初始化, 学习率的确定, 以及算法合适终止!
-
最后, 用credit approval的例子来总结目前为止遇到的linear model。perception只能+-1分类, linear regression是决定credit的量, 而logistic regression提供了是否approval的概率。
9-Linear Models II
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 2.1 有监督学习的描述: 有监督学习 是比较经典的一个机器学习场景。有监督学习可以被这样描述: (1)Super...
- 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
- 中文文档:http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic...