240 发简信
IP属地:安徽
  • Resize,w 360,h 240
    从Kylin入门到大数据老司机

    一、UML基础 为什么要使用UML 对象是面向对象世界的核心。面向对象软件分析和设计,最基本的需求是高效的识别对象,完成对象识别之后,赋予每个对...

  • 开源数据流管道-Luigi vs Azkaban vs Oozie vs Airflow

    随着企业的发展,他们的工作流程变得更加复杂,越来越多的有着错综复杂依赖关系的工作流需要增加监控,故障排除。如果没有明确的血缘关系。就可能出现问责...

  • Resize,w 360,h 240
    由一条SQL分析SparkSQL执行过程(三)

    对于下面一段SQL 在由一条SQL分析SparkSQL执行过程(二)中,我们分析到Spark如何封装SessionState,使得用户只需要通过...

  • Resize,w 360,h 240
    由一条SQL分析SparkSQL执行过程(二)

    对于下面一段SQL 在上一部分,我们分析了SparkSQL的建议执行流程图。我们知道一条SQL在Spark执行要经历以下几步: 用户提交SQL文...

    1.2 6446 3 12
  • Resize,w 360,h 240
    由一条SQL分析SparkSQL执行流程(一)

    现有下面这段SQL语句 这段SQL是从日志表中拿出用户点击PV(clk_pv),再去和用户表关联,按照用户分组,再对点击pv求和,同时,还过滤了...

  • Resize,w 360,h 240
    根据分子运动预测双色球走势(三)-数据清洗和机器学习

    一、问题 在爬取到双色球开奖的历史数据和开奖当日20-22点的气候数据之后,我们面临的问题是: 选择什么样的算法寻找天气数据和双色球开奖结果的关...

  • Spark On ElasticSearch初探

    一、写在前面 ElasticSearch 是一个快速索引检索的库。在实践中,我们用Hbase 存储海量业务数据,再通过ES存储索引,以这种相互结...

  • Hbase-Spark BulkLoad 解析

    一、背景 项目中有需求,要频繁地、快速地向一个表中初始化数据。因此如何加载数据,如何提高速度是需要解决的问题。一般来说,作为数据存储系统会分为检...

  • Scala爬虫刷博客阅读量

    一、写在前面 最近尝试在简书上写一些技术博客。每天看着可怜的阅读量很是着急。刚好最近接触爬虫,有需求就有办法。因此想到能否用爬虫刷阅读量呢?答案...