去年底NIPS会议上,Edward的作者David Blei 介绍了变分推断(Variational Inference)。
变分推断是一种近似推断方法。它是干什么的呢?
变分推断就是用来做计算的。首先是专家(上图那个白头发老爷爷)会对业务问题进行一些假设,然后根据假设收集数据,接着用变分推断这个技术,基于数据和假设,获得业务问题内在的一些逻辑关系,最终这些通过计算得到的知识,转化为我们解决问题的工具(例如:模型)。
当然这个过程也可以是闭环的,就是对应用上产生的误差进行分析,修正业务假设。
David Blei 用话题模型解释了变分推断的能力。话题模型是指根据若干文档提取主题分布。简单说就是,有一大堆文章,想个办法,把每篇文章的主题讲出来,用人一篇一篇读,然后总结出来也是可以的,但是效率低。用David Blei发明的LDA方法,就可以让电脑自己去学习,自动提取每篇文章的主题。
David Blei从纽约时报一百八十万篇文章中,提取了15个主题,例如第一个主题是关于体育的。
David Blei也提到了他们使用随机变分推断(Stochastic Variational Inference)解决大数据推断问题。例如纽约时报一百八十万篇文章的主题提取是用笔记本电脑完成的。
关于“业务假设”,要多说几句。如果用概率图模型,盘式记法是有助于我们理解“业务假设”的。例如,下图是关于一家电影发片商如何给9家广告平台支付费用(因为每名消费者并不是看到一家广告平台的电影广告就花钱买票的,如何评估每家广告公司的贡献是一个问题)的假设模型。
我还是挺赞同贝叶斯这些做法的。现有一些机器学习算法,决策树、神经网络等,很多人不考虑业务层面的实际要求,以为有数据就能建模,但模型能不能解决问题就不管了,这点不好。
昨天下午两个人都批评这个现象。一位是技术群的朋友(祝他生日快乐!),另一位是一家公司的业务老总(做了20多年金融业务的白头发老爷爷)。