深度学习第5次作业超参数调试、Batch正则化和程序框架

1.调试处理

不同超参数调试的优先级是不一样的，如下图中的一些超参数，首先最重要的应该是学习率α（红色圈出），然后是Momentum算法的β、隐藏层单元数、mini-batch size（黄色圈出）、再之后是Layer、learning rate decay（紫色圈出）、最后是Adam算法中的β1、β2、ε。

用随机取值代替网格点取值。下图左边是网格点取值，如果二维参数中，一个参数调试的影响特别小，那么虽然取了25个点，其实只相当于取了5个不同的点；而右图中随机取值取了多少个点就代表有多少不同值的点。

由粗糙到精细的取值，先粗糙取值，然后发现最好的点，再在这个点附近进行精细的取值。

2.为超参数选择合适的范围
（1）随机取值并不是在取值范围内随机均匀取值，而是要选择合适的标尺来随机取值。
（2）案例1：在选择网络层数时，其范围是[2,4]，那么直接均匀取值2，3，4都是合理的。

（3）案例2：如果在给学习率取值时，其范围是[0.0001,1],如果均匀取值，将会有90%的点落在0.1到1之间，这时不合理的。

（4）指数加权平均的超参数β取值范围是[0.9,0.999],其方法是：1-β=[0.1,0.001],然后再根据学习率提到的用对数坐标来随机取值。
（5）在取值微小变化会带来巨大结果不同的地方（β在0.9990到0.9995敏感度就比0.9到0.9005高）即灵敏度高，需要去更多更密集的值，这就是为什么要选择合适的标尺。

3.超参数训练的实践

当计算资源少的时候，只能一个模型慢慢调参，悉心照顾，当计算资源丰富时，可以模型同时选择不同参数进行训练，然后找出最优的。

4.正则化网络的激活函数

特征输入归一化之后均值为0，方差为1，但是对隐藏层的归一化而言，她的均值和方差是空调的，即通过γ、β两个超参数调整。之所以不希望都是均值为0，方差为1，因为那样的话可能都集中再激活函数的线性区域，导致可能没法得到任意想要的值。

5.将Batch Norm拟合进神经网络

使用以下公式来进行更新参数，其中原来的b已经可以去掉，因为不管是多少都会在归一化中被消除，然后用新的参数β替代（此处的β是归一化时的参数，不是优化算法中的β）

6.Batch Norm为什么奏效

浅层的理解可以按照之前提到的，把输入特征归一化之后，可以加快训练的思路来理解每一层归一化的作用。此外，深层原因：当已经学的x到y的映射，然后当x的分布发生变化是，该映射将需要重新学习，这里的x可以理解成中间的某一隐藏层，x的分布是受到它前面层参数的影响的，为了时x的分布尽量不受到影响（这样x到y的映射可以尽量少做调整），所以加入了归一化，这样x的均值可以始终固定为β，方差固定为α。这样即使x值会发生变化，但是其分布是不变的（或者说变得更少），这样一来减弱了前层参数对后层参数的影响，互相之间相对较独立，更有利于各层之间学习自己的映射，这样有助于加速网络的训练。如下图中框选出来的中间层它的值受前面参数影响，同时又是后层的输入，归一化保证了该层的分布不变性。

7.测试时的Batch Norm

在测试集时，是一个一个进行测试的，一个样本求均值和方差是没有意义的。所以使用的到方法就是：在训练是每一个批次获得对应的均值和方差，然后用之前提到的指数加权平均来实时获得最新的均值和方差给测试时来用（当然还有其他估算均值和方差的方法）。有了均值和方差之后，测试数据就可以进行归一化了，使用的β、γ是训练出来的。

8.Softmax回归
softmax激活函数常用于多分类问题的最后一层作为激活函数，它将最后一层算出来的z^[L]取幂函数，然后求和，最后再把每个单元取幂函数之后都分别除以求和，得到各自的概率输出。

9.深度学习框架

10.TensorFlow

举个例子：

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,056评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,842评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,938评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,296评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,292评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,413评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,824评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,493评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,686评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,502评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,553评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,281评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,820评论 3赞 305
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,873评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,109评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,699评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,257评论 2赞 341

深度学习 第5次作业 超参数调试、Batch正则化和程序框架

推荐阅读更多精彩内容

深度学习第5次作业超参数调试、Batch正则化和程序框架