【Sanjeev Arora 】On the ability of neural nets to express distributions 给出了组合Barron 函数可以...
【Sanjeev Arora 】On the ability of neural nets to express distributions 给出了组合Barron 函数可以...
机器学习中的优化算法 第三课 重参数化 在前馈网络的最后一步骤想对loss 函数求导数,但是可能这个loss也是带有参数的, 这时候对这个θ求导就比较难,一个方法是找到一个无...
机器学习中的优化算法 第二课 算法收敛的速度: 序列误差为 如果复合下面的关系,就称作是Q线性的: 如果r=1,C在0,1之间,那么就是线性。C是0就是超线性,C是1就是次线...
机器学习中的优化算法 第一课 如果一个人的论文中的formulation不严谨,那么他的理论部分基本可以不看。 优化问题的一般formulation:,一般都是凸函数,如果要...
这篇文章的目的是揭示优化和网络设计之间的关系,提出了个猜想更快的优化方法可以inspire更好的网络结构。以此我们可以用优化的结构去启发地生成更多的神经网络的结构。 第一部分...
目标是用Relu网络去逼近更加光滑的函数空间,在范数的意义下。 定理1.1简单而言是说:可以用宽度深度的Relu FNN去接近,而且接近误差是: 这是一个非渐近的结果,而且同...
因为常常需要知道随机变量,以及他们的和偏离均值的情况,所以需要一系列集中不等式。 在集中不等式中有两种思路,一种是矩法,可以得到包括Markov和Chebyshev不等式在内...
定理:是一个随机变量,而且,设,,我们证明是一个次高斯随机变量而且有次高斯系数,也就是说: 证明:我们设, 容易计算得到: 其中 () 引入下面的...
HDP 20,21 利用Poisson极限定理: 并且结合Chernoff不等式就知道 如果,那么当的时候 这个bound是sharp的,因为根据Stirling公式, 均值...
(HDP p19)假设是非负的独立随机变量。有连续的分布,而且密度函数都有界1。 则对任意成立
HDP p15 是iid的随机变量,并且均值方差,设, 那么对任意的N 和实数 t,都有 (容易推断出) 其中 同时这个误差是不能缩小的,因为考虑掷硬币分布,就有
HDP p14,15 ,那么对任意正数,有 利用这个容易证明 以及(要求)
寒假讲义:奇偶性 【例题1.1】:能否把前五十个正整数分成两组,使得第一组各个数的和等于第二组各个数的和? 【例题1.2】:设都是1或者-1,求证。 【例题1.3】:一元二次...