Hadoop、Hive实战:淘宝双十一数据分析

本博客内容参考了厦门大学数据库实验室技术文献:http://dblab.xmu.edu.cn/post/8116/

实验准备

     首先非常感谢厦门大学林子雨老师的支持,在经过他的许可之后,我将整个实验的过程以及一些自己的想法写了出来,在这里我并没有讨论spark回头客的预测分析,这在后期spark专栏里会有。

在进行实战之前,我们要确保已经配置好了部分环境:

1、hadoop环境的安装配置

2、hive的安装配置(mysql为元数据库):关于如何配置我在之前的博客说过

3、Sqoop的安装配置:本次实验会讲到

    我使用的是两台阿里云服务器Ubuntu14.0的系统(因为还是学生,价格很优惠),分布式部署了hadoop2.6.5,spark2.4.1(这在后期会用到)。

实验步骤一:本地数据集上传到数据仓库hive

该数据集data_format(点击保存链接:https://pan.baidu.com/s/11HOMXdGw4P6Srnm3T6wGSg提取码:4feo)是淘宝2015年双11前6个月(包含双11)的交易数据(交易数据有偏移,但是不影响实验的结果),里面有三个文件,分别是用户行为日志文件user_log.csv 、回头客训练集train.csv 、回头客测试集test.csv,我们这里主要使用日志文件user_log.csv。

该数据集里的字段主要有:

1、user_id:买家id

2、item_id:商品id

3、cat_id:商品类别id

4、merchant_id:卖家id

5、brand_id:品牌id

6、month:交易时间:月

7、day:交易时间:日

8、action:行为,取值为0表示点击,1表示加入购物车,2表示购买,3表示关注商品

9、age_range:买家年龄分段:1表示年龄<18,2表示年龄在[18,24],3表示年龄在[25,29],4表示年龄在[30,34],5表示年龄在[35,39],6表示年龄在[40,49],7和8表示年龄>50,0和NULL表示未知

10、gender:性别0表示女性,1表示男性,2和NULL表示未知

11、province:收获地址省份

下载完数据集之后,解压并上传到服务器

为了确保数据集有效可以取出user_log.csv的前5条数据测试:

接下来我们进行数据的预处理

1、删除文件第一行记录,这一行数据我们不需要。

2、由于交易数据太大(5000万条),我们截取前100000条数据集作为一个小数据集,写一个脚本完成上面的截取任务,脚本文件放在data目录下和user_log.csv一起

#!/bin/bash

#下面设置输入文件,把用户执行predeal.sh命令时提供的第一个参数作为输入文件名称

infile=$1

#下面设置输出文件,把用户执行predeal.sh命令时提供的第二个参数作为输出文件名称

outfile=$2

#注意!!最后的$infile > $outfile必须跟在}’这两个字符的后面

awk -F "," 'BEGIN{

      id=0;

    }

    {

        if($6==11 && $7==11){

            id=id+1;

            print $1","$2","$3","$4","$5","$6","$7","$8","$9","$10","$11

            if(id==10000){

                exit

            }

        }

    }' $infile > $outfile

进行截取

取前10条数据集测试一下:

head -10 small_user_log.csv

3、导入数据库

下面把small_user_log.csv中的数据集最终导入数据仓库hive中,为了完成这个任务我们首先把这个文件上传到分布式文件系统HDFS中,然后在hive中创建外部表完成数据的导入:

a.启动HDFS

可以选择在hadoop目录下的sbin文件下

./start-dfs.sh

或者直接选择

./start-all.sh

b.把small_user_log.csv上传到HDFS中

把本地系统中的small_user_log.csv上传到分布式文件系统HDFS中,存放在HDFS的“/dbtaobao/dataset”目录下

首先,在本地系统的根目录下创建一个新的目录dbtaobao,并在这个目录下创建一个子目录dataset

然后,把本地系统small_user_log.csv上传到分布式文件系统HDFS的“/dbtaobao/dataset”目录下,命令如下:

下面可以查看一下HDFS的small_user_log.csv的前10条记录

c、在hive上创建数据库

新开一个终端,提前启动mysql数据库,后期会用到

启动hadoop和hive,创建数据库dbtaobao

d、创建外部表

e、查询数据

上面创建外部表时已经成功把HDFS中的“/dbtaobao/dataset/user_log”目录下的small_user_log.csv数据加载到了数据仓库hive中,我们可以使用下面命令查询一下:

实验步骤二:hive数据分析

一、操作hive

使用dbtaobao数据库,显示数据库中所有表,查看user_log表的各种属性

查看表的简单结构

二、简单查询分析

1、查看日志前10个交易日志的商品品牌

2、查询前20个交易日志中购买商品时的时间和商品的种类

三、查询条数统计分析

1、用聚合函数count()计算表内有多少条数据

2、在函数内部加上distinct,查出uid不重复的数据有多少条

3、查询不重复的数据有多少条(为了排除客户刷单情况)

四、关键字条件查询分析

1、以关键字的存在区间为条件的查询

查询双11那天有多少人购买了商品

2、关键字赋予给定值为条件,对其他数据进行分析

取给定时间和给定品牌,求当天购买的此品牌商品的数量

五、根据用户行为分析

1、查询一件商品在某天的购买比例或浏览比例

根据上面语句得到购买数量和点击数量,两个相除即可得到当天该商品的购买率

2、查询双11那天,男女买家购买商品的比例

双十一女性购买商品的数量

双十一男性购买商品的数量

两者相除就得到了要求的比例

3、给定购买商品的数量范围,查询某一天在该网站的该买该数量商品的用户id

六、用户实时查询分析

不同的品牌的浏览次数

实验步骤三:将数据从hive导入到mysql中

一、准备工作:安装Sqoop(可以将数据导入mysql中)

服务器上新建文件夹sqoop,使用xftp上传到sqoop中解压缩

解压缩完成后,添加到环境变量

进入sqoop安装目录下的conf文件夹中执行以下命令复制sqoop-env-template.sh为sqoop-env.sh并在里面添加以下内容

连接数据库之前不要忘记把jar包放到sqoop安装目录下的lib文件夹中,这个jar可以在官网中下载,百度或者谷歌搜索:mysql-connection-java,选择下载的版本,我下载的是mysql-connector-java-5.1.47.zip版本


测试一下:能看到已经读取了mysql中的数据库就说明安装成功,出现warning没有关系,因为没有安装hbase和zookeeper等

二、Hive预操作

1、创建临时表inner_user_log

2、将user_log表中的数据插入到inner_user_log

执行下面命令查询上面的插入命令是否成功执行

三、使用sqoop将数据从hive导入mysql

1、登录到mysql创建数据库

2、创建表

注意:语句中的引号是反引号,不是单引号,sqoop抓数据的时候会把类型转为string类型,所以mysql设计字段的时候,设置为varchar

3、创建完表后,另开一个终端或者退出当前的mysql,进行导入操作

4、返回到刚才的mysql终端或者重新进入mysql查看user_log表中的数据,会得到类似下面的查询结果

说明从hive导入数据到mysql中,成功!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容