大数据 - 文集

大数据

77篇文章 · 256717字 · 4人关注

Druid查询语法
本文的demo示例均来源于官网。 Druid查询概述 Druid的查询是使用Rest风格的http请求查询服务节点，客户端通过发送Json对象请...

0.2 1354 0 1
分区函数Partition By与row_number()
[TOC] ROW_NUMBER()函数 ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COL...

0.6 1814 0 1

Spark在处理数据的时候，会将数据都加载到内存再做处理吗？
对于Spark的初学者，往往会有一个疑问：Spark（如SparkRDD、SparkSQL）在处理数据的时候，会将数据都加载到内存再做处理吗？ ...

0.2 533 0 2
为什么需要spark
也许你之前没有做过大规模数据处理的项目，但是 Spark 这个词我相信你一定有所耳闻。Spark 是当今最流行的分布式大规模数据处理引擎，被广泛...

0.3 1203 0 3
大数据组件通俗介绍
大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的...

3680 0 0
Spark SQL数据查询的利器
介绍了弹性分布式数据集的特性和它支持的各种数据操作。不过在实际的开发过程中，我们并不是总需要在 RDD 的层次进行编程。就好比编程刚发明的年代，...

1040 0 0
Spark键值队操作
Spark 为包含键值对类型的 RDD 提供了一些专有的操作。这些 RDD 被称为 pair RDD1。Pair RDD 是很多程序的构成要素，...

0.1 516 0 1

spark原理总体介绍
拿到系统后，部署系统是第一件事，那么系统部署成功以后，各个节点都启动了哪些服务？部署图从部署图中可以看到整个集群分为 Master 节点和...

0.2 575 0 1
如何自己开发一个大数据SQL引擎？
我们先回顾一下前面讨论过的大数据仓库 Hive。作为一个成功的大数据仓库，它将 SQL 语句转换成 MapReduce 执行过程，并把大数据应用...

962 0 0