240 投稿
收录了20篇文章 · 39人关注
  • 配置微软Azure大数据HDInsight云集群

    配置微软Azure大数据HDInsight云集群,存储账户、托管标识等问题也都参考官方文档解决了。原文在我的开源中国博客:https://my....

  • Resize,w 360,h 240
    hdfs读之read读取解析<二>

    一、读取block数据方法流转 传输数据是通过scoket建立的,Sender和Receiver,这两个方法都继承了父类DataTransfer...

    0.1 古语1 0 1
  • Hive Hooks介绍

    Hive作为SQL on Hadoop最稳定、应用最广泛的查询引擎被大家所熟知。但是由于基于MapReduce,查询执行速度太慢而逐步引入其他的...

  • Resize,w 360,h 240
    [Python实战] 功能简单的数据查询及可视化系统

    前言 数据时代,数据的多源集成和快速检索查询是第一步,配上数据分析及可视化才能算窥得大数据一角。 创建这个项目的主要目的一是对前期工作的一些总结...

  • SQL优化器简介

    文章导读: 什么是RBO? 什么是CBO? 我们在工作中经常会听到这样的声音:“SQL查询慢?你给数据库加个索引啊”。虽然加索引并不一定能解决问...

  • Apache Calcite简介

    文章导读: 什么是Calcite? Calcite的主要功能? 如何快速使用Calcite? 什么是Calcite Apache Calcite...

  • Resize,w 360,h 240
    Hadoop权威指南第一章

    Nutch->Hadoop(yahoo) 第一章 初识Hadoop 分治,多机器并行I/O数据 问题1:硬件故障数据丢失解决办法:复制repli...

  • Resize,w 360,h 240
    安装与配置大数据软件

    配置所需软件: ①、VirtualBox-5.2.0-118431-Win.exe ②、Ubuntu14.04.5 ③、jdk-8u151-li...

  • hadoop2.5.0完全分布式环境搭建(亲测有效)

    说在前头的一些东西,关于Linux本身环境本身的一些处理见如下链接,主要是讲Hadoop环境的前期准备:http://www.jians...

  • Resize,w 360,h 240
    初识大数据

    最近几年IT技术的发展真的是日新月异,什么云计算、大数据、机器学习、AI等等名词层出不穷。多数程序员内心其实是恐慌的,我也时常会感到危机感。每每...

专题公告

所谓的大数据从数据处理的流程来看分为数据的保存,数据的清洗处理,和最后数据的分析转化。