240 发简信
IP属地:辽宁
  • Resize,w 360,h 240
    我的埃及之旅

    Today I want to share my experience in Egypt several years ago. 今天我想和大家分...

  • Resize,w 360,h 240
    Spark运行原理

    本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、Application:Spa...

  • spark经典案例之统计每天新增用户数

    前言 本文源自一位群友的一道美团面试题,解题思路(基于倒排索引)。 1、原始数据 根据数据可以看出我们要求的结果为:2017-01-01 新增三...

  • Spark经典案例之非结构数据处理

    需求:根据tomcat日志计算url访问了情况,具体的url如下,要求:区别统计GET和POST URL访问量结果为:访问方式、URL、访问量测...

  • Spark经典案例之求top值

    需求分析orderid,userid,payment,productid求topN的payment值a.txt1,9819,100,1212,8...

  • Spark经典案之求最大最小值

    数据准备eightteen_a.txt10210391092001139028 eightteen_b.txt523083810005 结果输出...

  • Spark经典案例之求平均值

    1、需求分析对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一个学生的姓名和他相应的成绩,如果有多门学科,则每门学科为一个文件。要...

  • Spark经典案例之数据排序

    业务场景:数据排序 1、”数据排序”是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、数据建立索引等。这个实例和数据去重类似,都是先对原...

  • Spark经典案例之数据去重

    /** 业务场景:数据去重问题 Created by YJ on 2017/2/7. 统计数据,尽量用reduceByKey,不要用groupB...