去年写的文章,从notion的博客搬到这边来发一下(本来想搬到微信公众号的,但是那个格式真的反人类就作罢了),原文请到这里看mewimpetus[https://mewimp...
去年写的文章,从notion的博客搬到这边来发一下(本来想搬到微信公众号的,但是那个格式真的反人类就作罢了),原文请到这里看mewimpetus[https://mewimp...
联邦学习是Google在2017年提出来的,旨在在保护用户隐私的情况下使用用户更敏感的数据来训练机器学习模型。这种学习方式就是后来人们所谓的横向联邦学习(区别于纵向联邦学习,...
最近在整理电脑文件,看到一份当初给同事讲解TRPO算法原理时写的PPT,感觉要比先前那篇写的更加清楚明白,加之这几天刚好在复习RL相关的知识,然后便将PPT的内容加上我比当时...
当我们在做一些跟网络游戏相关的机器学习任务的时候,有时需要对整个游戏系统的运行机制有所了解才能更好的应对,对于网游而言,首当其冲的机制便是同步了。当然,大部分的机器学习从业者...
此文算是对Google Research这篇A Gentle Introduction to Graph Neural Networks[https://distill.pu...
上一篇文章介绍了利用确定策略来解决连续控制问题的DDPG,现在再来介绍一种非常牛的用随机策略来做连续控制的方法Soft Actor Critic (SAC) 。它是一种以of...
直接看名字就能看出DDPG(Deep Deterministic Policy Gradient )其实就是DPG(Deterministic Policy Gradient...
这俗话说的好呀,这饭要一口一口吃,酒要一口一口喝,路要一步一步走,步子迈大了,喀,容易扯到蛋。这训练模型呢,也是这个理,欲速则不达,收敛慢并不可怕,可怕的是不收敛,今天要介绍...
在2017年的时候,无论是openai或者是deepmind,在深度强化学习领域都取得了重大突破,而能带来这个突破的一个重要因素便是PPO(Proximal Policy O...
所有人都非常擅长均匀抽样,因为几乎所有的编程语言都内置了均匀分布中生成一个0到1的实数的方法,本文中我们将此方法记作...那如果是从一个带有权重的集合里抽取呢?往往就没有那么...
声明:此方法建立在著名的马尔可夫链蒙特卡洛采样算法(MCMC)之上,并一改巴普诺夫把妹法和薛定谔把妹法的送餐设定,而是虚构了一个真实的故事场景,令学习者更加感同身受,可以说是...
今天要介绍的是一个多任务学习模型MMoE[https://dl.acm.org/doi/pdf/10.1145/3219819.3220007],如果第一次接触此类模型或是没...
今天分享一个特出名影响特大的模型:Winde&Deep。 原先因为个人喜好问题不太打算讲这个的,但是这个模型在业界实在是举足轻重,后期很多模型都是在这个基础上发展起来的,因此...
作为一个先有深度学习基础,再接触到推荐系统的人来说,我起初理解矩阵分解技术的时候,实际是带有深度学习视角的。矩阵分解技术是将协同过滤的共现矩阵分解为user矩阵与item矩阵...
很多人都把AutoRec[https://users.cecs.anu.edu.au/~akmenon/papers/autorec/autorec-paper.pdf]看作...
在最初听说知识蒸馏技术的时候,我是持怀疑态度的,甚至觉得不可思议,为什么通过用简单模型去学习复杂模型的效果会比直接用训练标签来训练简单模型要好??? 但是,它的存在必有其合理...
在很久很久以前,早在电子邮件还是最重要的通讯工具的时代,为了识别垃圾邮件,朴素贝叶斯算法就已经大行其道了.它因为过于天真的条件独立性假设,一直被人诟病愚蠢,但也正式这个假设,...