上限分析通常能提供一种很有价值的信号或者说很有用的导向告诉你流水线中的哪个部分最值得你花时间。 举例:数值评价量度,字符准确度,图像中的文字识别正确的比例 上限分析的主要思想...
人工数据合成的概念通常包含两种不同的变体:第一种是白手起家创造新的数据;第二种是已经有了一小部分带标签的训练集,然后扩充为一个大的训练集 字符识别的更大的训练集: 现代计算机...
照片OCR流水线中的组件:滑动窗(sliding windows)的分类器 滑动窗的步骤: 以文字检测为例,文字识别是计算机视觉中的一个非同寻常的问题。取决于你想要找到的文字...
照片OCR技术中的应用历史涉及3个部分: 1. 一个复杂的机器学习系统是如何被组合起来的 2.机器学习流水线(machine learning pipeline)的有关概念以...
大规模机器学习的方法称为映射约减 (map reduce) 方法,相比于随机梯度下降方法,映射化简方法能够处理更大规模的问题。 映射化简的基本思想:将训练集划分成几个不同的子...
确保算法能收敛以及选择合适的学习速率α。 对于随机梯度下降算法,为了检查算法是否收敛,沿用之前定义的cost函数。在算法扫描到样本(x(i),y(i)) 但在更新参数θ之前,...
小批量梯度下降有时候甚至比随机梯度下降还要快一点,每次迭代使用b个样本,b是一个叫做"小批量规模"的参数。b的一个标准的取值可能是2到100之间的任何一个数,常用的数字是10...
随机梯度下降的思想也可以应用于线性回归、逻辑回归、神经网络或者其他依靠梯度下降来进行训练的算法中。 梯度下降法的问题是当m值很大时,计算这个微分项的计算量就变得很大,因为需要...
训练大的数据集存在计算量的问题。假设要训练一个线性回归模型或者是逻辑回归模型,当m是一个亿的时候, 用求一亿个项目总和的计算量来计算仅仅一步的梯度下降,这显然效率不高。 在我...
举例:有一个用户没有给任何电影评分,影响 θ(5) 值的唯一一项是λ/2[(θ(5)_1)^2+(θ(5)_2)^2]。即要选一个向量 θ(5)使得最后的正则化项尽可能地小。...
建立预测评分矩阵,(i, j)位置数据对应的评分是我们对用户j 对电影 i 的评分的预测值,准确说来其值等于θ(j)转置乘x(i)。 定义矩阵 X:x(1)转置,x(2)转置...
相较于θ和x的迭代计算,存在一个更有效率的算法:将这两个优化目标函数给合为一个定义成新的优化目标函数 J,它依然是一个代价函数,是特征 x和参数 θ的函数。这种算法不再需要不...
协同过滤(collaborative filtering):能实现对特征的学习,即这种算法能够自行学习所要使用的特征。 示例假设:假设采访的每一位用户告诉我们他们是否喜欢爱情...
一种构造推荐系统的方法 :“基于内容的推荐” 举例:每一部电影都用一些特征来描述,假设每部电影有两种特征,分别用x1和x2代表,x1表示这部电影,属于爱情电影的程度;x2表示...
推荐系统两方面的动机: 1.科技类公司正试图建立更好的推荐系统,试图向用户推荐新产品。 2.对一些问题而言,存在一些算法能试图自动地替你学习到一组优良的特征量。 推荐系统举例...
参数拟合问题:标准公式是µ 等于你的训练样本的平均值;Σ 实际上就是我们在使用 PCA时的式子 多元高斯模型和单元高斯模型之间的关系是单元高斯模型对应于一种多元高斯分布(多元...
不要把 p(x1) p(x2) 分开建模,而要建立一个p(x) 整体的模型,就是一次性建立 p(x) 的模型。 改良版的异常检测算法:多元高斯分布或者多元正态分布 多元高斯分...
如果数据的分布不同于高斯分布,则需要对数据进行一些不同的转换来确保这些数据看起来更像高斯分布。虽然通常来说不这么做算法也会运行地很好,但如果使用一些转换方法,这会使你的数据更...
1. 异常检测:如果你有很少的正样本,但有大量的负样本,在对 p(x) 进行估计并且拟合那些高斯参数的过程中只需要负样本,依然可以很好地拟合 p(x)。 监督学习:监督学习一...