在大数据时代,我们已经听了不少有关大数据的应用。现在,在人工智能与大数据交叉的时代,我们也不得不来谈谈智能大数据应用。在飞马网的FMI人工智能大会上,来自美国华为的CTO胡鲁辉先生,就“智能大数据应用”为我们做了分享。
胡鲁辉,曾就职于亚马逊和微软,常年在大数据领域深耕。
大数据的变化
胡鲁辉表示,大数据从过去五年到十年间的变化是很多的。主要表现在数据量的变化。这个从数据的单位应用上已经有非常明显的表现:比如早期的时候我们可能讲几个字节、几个兆,现在讲的是TB、EB。
而大数据被采集进来以后,就需要通过数据挖掘,使数据产生价值。大数据的变化,最早可能是Batch Processing,然后是Flink、Spark。胡鲁辉告诉我们,像亚马逊、微软,他们推出来云上的服务,是通过云计算这种能力,使大数据更加方便。那再往后是什么?
胡老师表示需要三方面的能力:就是数据、AI和云。也就是通过云计算这个强大的数据分析能力,还有智能的挖掘方法,和丰富的数据,把三方面结合起来,才能把大数据做的更好。
尽管我们经常听到有人在谈大数据,但是胡老师告诉我们,其实大数据还是刚从概念走向应用,而且价值不是很大。因此,当前重点就是下一个应该是什么样的技术,能够帮助我们解决当前的一些挑战,能够让大数据的价值真正的发挥出来。
在胡老师看来,应该是实时大数据。
因为以前都是从技术角度我们在考虑这个大数据。我们想到了批处理、流处理,我们知道现在离线也解决了,实时也解决了。但是,真正从用户角度考虑,他要的不是数据,用户真正想的就是通过数据怎么能够有很好的用户体验,这是最关键的。
那么,这个用户体验怎么来定义呢?其实也就是从四个方面:
第一、批流计算。因为数据有两种,静态和动态的,动态的数据,要实时处理,但是静态的数据其实也需要实时处理,因为我们的想法和我们的要求一直都在变化,如何能够根据我们实际的需求,得到一个结果,以前的方法就是我这个不一致了,这个计算的方法都弄好了,要一些新的结果,可能需要一些工程师,还需要一些数据分析的人员。但是,真正含义上是实时的可以批流处理,就是你的数据很大,通过实时处理,很快的把结果给拿出来。
第二、随时可得。
第三、基于数据预测。通过过去的数据能够产生新的数据,这个数据是将来新的数据。
第四、实时决策。
数据和智能的结合
如何通过智能把大数据更加有效,更加能够体现它的价值?胡老师强调,其实从机器学习这几年的快速发展来看,它主要的就是数据的积累。
深度学习。像CNN、RNN、DON等,深度学习有很强的计算能力,通过这两方面的基础,使深度学习实现可能。另外,神经网络,尽管从算法理论上来说不是新东西,但是这几年通过计算能力和数据量的提升,使它得到实际上的改变。
深度学习的应用,我们所应用的能力有Transfer Learning、Ensemble Learning、Incremental Learning等几种,应用到各种方面:
* 第一,图像识别。就是Image Classification。
* 第二,机器翻译。举个例子,中文转换到英文,或者英文转换到德文,这里一般用到的技术,就是神经网络这个技术。
* 第三,Specch Recognition。
* 第四,怎么把文字转化成语音,这个比较火,AlphaGo就是通过这个技术可以对环境实时的做调整和判断。
胡老师以亚马逊为例,为我们做了介绍,比如amazon alexa,就是把人工智能做成一个开放性的平台,一边是相当于开发人员,就是开发者可以产生不同的skills,另一边边就是应用,通过Voice也好,或者通过API的形式也好,可以给不同的设备连接起来。某种意义上说,这应该是开放的一个人工智能的平台,也就是说,开发者他可以定制不同的规则,定制不同的模型。然后,用户场景当中,他根据具体的能力,然后做一些具体的事情。
就是怎么能够通过一个统一的方法,把不同的模型和不同的能力结合起来,它就说,我通过一个云的平台,这个平台把开发人员和消费应用者结合起来,这里可以支持不同的设备,可以支持不同的解决方案。
云这个东西怎么挖掘?从技术方面我们怎么样做,怎么通过云计算的这种技术,能够比较快速的帮助大家做智能大数据的应用。这里其实相当于一个简单的流程,数据比较多,可能有数据采集和数据收集这个过程。
另一方面,首先要数据存储,数据存储以后,下一步就是通过数据分析和数据处理的方式,怎么能够把数据进行实际的分析和实际的应用。怎么通过机器挖掘的方式,把数据的关联性找出来,或者说怎么能够通过预测,然后用过去和现在的数据产生一个新的数集,是人工智能时代的关键。
胡老师以在微软做的一个大数据Knowledge Recommender为例,为我们介绍了通过大数据和机器学习的手段,实现数据的只能应用。
怎么通过大数据和机器学习这个手段,把里面复杂的文字和关系挖掘出来?从客户角度来讲,这里面的文字或者关系,本身是一个比较直观一点的事情。我们主要是通过这么一个机会,这里主要有三大块:离线的方式、实时的文本,实时的数据。一部分是离线的,一部分是在线的。在离线过程当中,我们是产生了知识库;在线过程当中,就是实际的文本,或者实际的数据进来以后,我们通过一些类似的方法把文本理解以后,然后从这个知识库里进行搜索。相当于一个关系的匹配的过程。因为产生这个结果,会有很多很多误差,人工智能很大一部分就是偏差和误差,如果都是相关的,或者没有产生副作用的还好,但是有些把那个给误导了,我们怎么把产生的结果进行更好的过滤、优化,然后把结果变得更加准确。所以,这个系统里主要有三个大部分,具体应用领域,我们可能使用的过程不太一样。
胡老师认为,其实想智能在大数据应用的时候,有的时候分不清楚到底是大数据帮助了智能,还是智能帮助了大数据。因为可能智能也是一个产品,大数据也是一个产品。
所以,总结起来有三个方面:
* 一方面大数据和人工智能的关系是相当密切的,通过人工智能帮助了大数据的价值实现,也可以说,有了大数据这个技术,可以让人工智能做的更加好,关系是相当大的。
* 第二,其实技术在不断的变化,但是如何从这里把价值挖掘出来是很关键的。
*第三,智能和大数据之间的关系,从一开始的时候,就有相互关联这个事情,今后就是如何让他们做的更加能够相关,其实我们要思考一个事情,也就是它里头其实有很多挑战,我们还要不断思考它在这里头的一些东西。这就是今天分享的内容。
附一则胡鲁辉现场的Q&A:
Q:现在大数据里的生态产品非常多,进入这个行业的时候对未来有什么建议?还没有出现实时处理的情况下有没有一种替代方案做这个事情?
胡鲁辉:第一个问题,很多大数据的研究者也都在思考这个问题,比如如何把使用成本降下来,大家可能都在寻找一个工具和方法,想解决所有的问题。但是,困难比较多,像亚马逊和微软,微软的想法就是总是想通过软件或者解决方案做不同的事情。而亚马逊的方法不一样,它是针对一个能力,针对一个方法提供工具。其实大数据从三个维度选择。一个维度就是有数据产产生,数据采集,这个维度其实有不同的层面。另外,数据的度,就是冷数据,或者热数据。这几个例子,如果每个礼拜的数据很大,可能就是1EB的数据,可能就会找一种成本比较高的计算方法,回到原来这个问题,我们怎么选择工具呢?我说你从这三个维度考虑。每个工具,像开源的产品也好,或者不同类的存储工具,在某个方面比较明确。所以,记着要解决问题的时候,要从三个维度分析一下。
第二个问题,用户更多是从体验角度,我们可能也就是从两个方面,一个方面从它数据本身本质方面去考虑,还有怎么能够给用户这个体验,和用户真正的要求方面结合起来。
关注公众号:飞马会,关注线上线下直播课程