背景介绍 Linkis是一款优秀的计算中间件,他对应用层屏蔽了复杂的底层计算引擎和存储方案,让大数据变得更加简单易用,同时也让运维变得更加方便。我们的平台很早就部署了WDS...
![240](https://upload.jianshu.io/users/upload_avatars/17264076/db7571df-3b53-4108-827b-078283c8c916.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
IP属地:浙江
背景介绍 Linkis是一款优秀的计算中间件,他对应用层屏蔽了复杂的底层计算引擎和存储方案,让大数据变得更加简单易用,同时也让运维变得更加方便。我们的平台很早就部署了WDS...
Web3.0时代:开放、隐私、共建 在分布式技术(区块链)的助力下,Web3.0将从开放、隐私和共建三个角度去颠覆Web2.0互联网,打造一个由用户社区主导的去中心化世界,重...
Hive调优策略 Hive作为大数据领域常用的数据仓库组件,在设计和开发阶段需要注意效率。 影响Hive效率的不仅仅是数据量过大;数据倾斜、数据冗余、job(小文件多)或I/...
Spark GraphX概述 GraphX是Spark的一个组件,专门用来表示图以及进行图的并行计算。GraphX通过重新定义了图的抽象概念来拓展了RDD:定向多图,其属性附...
前言 Apache Spark在6月份分布了3.0.0版本,增加了许多性能优化方面的新特性。作为大数据分析的重要引擎,在SQL查询优化方面的新特性值得期待和使用。Spark在...
前言 本文是基础中的基础,看官可以放心食用。 在数据库中的静态表上做OLAP分析时,两表join是非常常见的操作。同理,在流式处理作业中,有时也需要在两条流上做join以获得...
实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线数...