7 月 12 日,,由 Kyligence 主办的首届 Kylin Data Summit 在上海浦东香格里拉盛大召开,来自各行业的 800 多位技术大咖参加此次大会。大会特别邀请了全球知名 IT 研究咨询公司 Gartner 研究总监 Julian Sun 为与会者带来了一场精彩的演讲。点击这里下载完整报告。
关于演讲嘉宾
Julian Sun (孙鑫)先生在Gartner担任研究总监,负责商业智能及数据科学领域。他主要建议数据分析领导者架构,部署并演化现代化商业智能平台。其主要研究方向集中在可以帮助业务用户提升数据分析能力的新兴分析技术,由AI驱动的增强型分析,数据分析最大化业务价值的方法及简化企业员工使用数据科学流程的最佳实践。他同时对管理企业级分析平台的技术架构有所研究。
(以下文章整理自Julian Sun现场的演讲实录,演讲主题:数据与分析领域十大技术趋势 )
在介绍具体的趋势前,Julian Sun特别介绍了下这十大趋势的背景。Gartner 发布的这十大趋势是最近3-5年企业可以应用的技术,而非十年以外的技术趋势。这些趋势之间的关系是相紧密相连,互相能够加强,而且都反映了三个主题:智能、新兴和拓展。
智能
企业用户都在面临着一些前所未有的变化,这些变化有的来自技术,有的来自于业务。传统数据方式可能没有办法在满足日益变化的数据分析形势,所以我们要借助机器学习帮助我们以更低门槛做更深度分析。
新兴
由于机器学习跟AI介入,数据可能不再自上而下放一层不变地展现在用户面前,更多根据用户的行为,通过元数据形成更复杂的一种数据框架以更新兴模式呈现到用户,是一个更动态的形式。
拓展
作为一个数据分析平台,更多需要考虑的是,这个平台是否有足够拓展性和延展性,可以将高阶分析普惠到所有人。
趋势1:增强分析
增强分析是一种新兴数据分析方式,借助了机器学习跟AI,让我们用户可以更低门槛去将这个数据分析呈现出来。
过去,大家认为数据分析是一个结果,我们看了一些仪表盘,看了一些报告觉得自己做数据分析了,其实不然,数据分析是一个创新过程,需要用户高度融合才可以产生新一轮结果。
增强分析可以在哪些环节帮助企业做数据分析呢?
在准备数据阶段,增强分析可以为我们推荐一些业务刚好能用,刚刚够的数据源,而不是杂乱无章的数据源,同时可以帮助用户理解别的用户,自己同一组用户平时用的哪些数据。
在业务发现的时候,增强分析又可以帮助我们做一些自动建模,模型管理、代码生成,从而使用户可以去用一些更高阶功能。
在分享的时候可以通过增强分析给我们带来一些自动的业务发现,而不是让我在很多的仪表盘,很多报告当中一个个摸索。这也是为什么增强分析不仅是 Gartner 今年数据分析十大趋势,同时也是 Gartner 今年十大战略趋势,整体 IT 十大战略趋势之一。
为什么企业里面要用增强分析呢?
企业要分析的数据越来越复杂,探索的结构越来越复杂,业务用户希望通过自己自服务形式做分析,他们的问题没办法用普通数据方式传达的,所以用了增强分析,可以给他一种全新数据分析方式;同时增强分析还有一个很大作用,可以让我们做数据分析、学习的时间大大降低,可以真正普惠所有的业务用户,而不是让数据分析只停留在企业当中的少部分人。
同时大家可以想象一下我们现在做数据分析的模式,无非是一种可视化形式,拖拉拽形式做数据分析,很有可能会造成另外一种孤岛。我们常常说数据孤岛,做分析也一样,很可能产生分析孤岛,导致我们做的数据分析和业务脱节。这个时候用增强分析可以把这样的增强分析模式放到业务情景当中,提供最契合业务的真知。
举一个简单例子:美国有一家银行,他在没有使增强分析以前,他用了一个常规思路探索他们的客户,他们对客户做了一个画像,觉得自己作为一个银行可以把理财产品卖给年纪较大的用户,一些55岁-65岁的用户,这种固有思维一直存在于他们的数据模型当中,久而久之他们就发现丢失了很多客户,于是他们用了增强分析模式并列了所有可能,最后发现真正愿意买他们理财产品的话,虽然他们钱不多,他们是25-35岁的用户,欢迎大家咨询Gartner报告,了解更多增强分析案例。
趋势2:商用人工智能机器学习会取代开源占据市场主流
这个趋势可能与大家的普遍认知会有一些冲突。通过Gartner一些研究发现大多数的模型尽管有在被写,有被用,但只是创造出来而已,并没有放到运营和生产环境,也没有真正普惠到所有业务人员。
我们看到了像谷歌,亚马逊,微软,他们其实都在和很多的开源架构进行结合,我们预测到了2022年这些厂商会占到数据科学平台20%的份额。同时,这些平台也一点点地演进自己,可以帮助我们提供更好一些生产环境特色,比如说数据的血缘分析、模型的复用、管理等,这些都是企业级用户非常擅长,而不是开源平台开发的初衷。
与此同时,这些平台还能给我们带来非常多益处,比如说我们要做我们的AI普惠性,作为开源平台实际上很少会想到这个工具,我们怎么样给到业务人员用,但是通过我们商用平台,可以搭建一个比较好环境,让我们的业务用户使用。同时我们可以看见,真正能够用到这些开源平台,用到这些算法,其实是需要很高技能要求,并不是所有人都可以实现这点,所以说这一点我们会发现,那些数据科学家其实是非常花钱,商用平台可以有一个更低的门槛让用户使用。
每个企业都在想怎么做数据化转型,这个过程是非常漫长的,需要18个月到3年时间才可能去实现,这个时候该怎么办呢?我们是不是看到开源市场不停有创新,不停有开源包出来呢,没错,但是通过一些开源包,通过一些开源结构完成一个长期的计划,实际是很难摸索的。我们通过跟商用平台合作可以明确知道这些商用平台未来的发布计划怎么样,这样能够更好地帮助我们结合企业的开发和发展。同时我们也会发现现在越来越多商用平台在把自己已经训练好的模型、算法直接放到平台销售,作为用户可以更简单地,直接购买这样的算法,还有模型,模型将会更成为一种商品的形式被大家使用。
未来算法将会很容易获得,不需要自己再去训练,但是比较困难的点是什么呢?是数据。我们怎样才能拥有一套可信的数据,去清洗它,训练它,使用它呢?这将涉及到下一个比较重要的趋势:数据管理相关的趋势。
趋势3:Data Fabric
Data Fabric一个比较大的框架,这个词我们姑且称之为数据编织。数据编织是一个概念,不是一个产品, 它并不是一个自上而下,以一个非常严苛固定的形式给到用户的数据结构。它更多是基于企业用户行为,自动建立起元数据之后一个新兴数据结构,它是动态变化的。
数据编织这个概念在 Gartner 的数据管理组经常被讨论,每当讨论到这个概念,就同时会提到数据虚拟化,以及如何去平衡?要么把数据从 A 移到 B ,B 移到 C,或者把数据全部连在一起,用虚拟化形式实现,这个平衡在企业里是非常难实现的,所以我们需要一个数据编织形式去管理这样的平衡,并不是所有的数据结构。
同时我们也会看到这样的一种新兴数据结构涵盖了很多东西,有数据湖,数据库,分布式的存储关系还有传统的数据库等。在这里元数据驱动了一切,我们希望花更多时间了解用户行为,搭建这样一个更灵活的数据编织。
从 usecase 角度看我们可以看见无论是数据仓库,分布式流程,多样式的数据来源都会以更新的形式、更符合业务诉求的形式,混合所有的数据存储的porfolio,而不是单纯用单一技术,所以我会看见更多的厂商去做 datahub 的产品用来编织所有的数据。这样的形式也能够更方便符合现在不停变化的业务诉求。用更灵活的数据编织形式,我们建立一个统一的数据框架,管理所有数据。
那在这个背后支撑我们是什么呢?真正帮助我们做到一个非常好的管理应用是什么呢?这将涉及到下一个重点趋势,今天大会最大的主题:增强数据管理。
趋势4:数据增强管理
“增强”这个词,我们希望把数据分析背后机器学习和人工智能的能力,它真正体现在帮助用户上,而不是取代用户。增强型数据管理涵盖数据管理方方面面,元数据管理,数据库管理,还有数据整合,数据质量都涵盖在内,它并不是一个单纯的数据管理范式。它可以有效地依赖我们企业里用户的行为,我们元数据的学习,去自动地生成行为数据。
过去,我们是非常被动做这样的数据管理的。当我们我们做数据质量管理的时候,把所有数据拉出来,看数据有哪些异同点和趋势,这个是非常消耗时间;同样做数据库管理的时候,我们要做优化数据库,建立索引,删除索引,建立一个分区,删除一个分区,这可能是用户为我们提出的需求,DBA 需要花费特别大量的时间。
由“增强”技术带来的减少的任务量是为了帮助我们而不是为了取代任何人,“增强”是为了使我们的工作更容易、更创新,更主动。
在进行数据运维时,很多时候是用到元数据的,但元数据的生成和学习是需要花时间的。应用到机器学习、AI技术,我们希望最终能实现的是,看见数据,学习用户行为,创造元数据,整合数据管理工具 , 创建数据质量规则,最后在数据上建立 Scheme,让数据真正被业务用户使用,这将是一个完整的“增强型数据管理”希望实现的效果。
增强型数据管理涵盖面更广,用一个自动驾驶的例子来说,自动驾驶并不是为了学习这个车怎么开,更多是为了学习外部路况、环境,道面交通拥堵状况,这是我们初衷。跟增强型数据管理也一样,我们更希望从用户行为,从元数据当中获取真知,去创造元数据,帮助我们更好做数据管理,涵盖数据质量管理,主数据管理,数据集成,数据库管理,元数据管理方方面面。
今天围绕着“增强型分析”给大家带来了这样一些总结和分析,云是在这张图背后的,这些趋势紧密相连。这些趋势固然都很好,但是大家不要盲目地顺从某些趋势,作为企业管理者,更应该看到业务中痛点和欠缺的地方,查找整个系统中欠缺的部分,再运用这些技术。我们这些趋势是最近三五年发现的,可以帮助我们企业快速应用,但是这个顺序和重点依旧取决于你们企业自身业务重点。