240 发简信
IP属地:北京
  • Resize,w 360,h 240
    Pyspark Join操作

    Spark Join 操作 [TOC] 官方文档:https://spark.apache.org/docs/2.4.7/api/python/...

  • 启用Kerberos认证服务

    开启Kerberos服务需要台KDC服务器。

  • spark创建DataFrame

    通过列表创建 通过列表创建dataframe,列表里面可以是列表也可以是元组。 从json文件创建 json文件people.json: spa...

  • Resize,w 360,h 240
    spark远程读写hive数据库

    实现spark远程连接hive数据库,需要将服务端mysql数据库里的hive数据表DBS和SDS里的localhost改为可以访问到的IP地址...

  • hive修改localhost

    修改DBS表: 修改SDS表:

  • Resize,w 360,h 240
    spark连接Hive

    作者是通过metastore方式实现spark连接hive数据库,所以首先启动metastore: 另外需要将core-site.xml、hdf...

  • 单机安装Hadoop、spark环境

    作者环境: CPU: E5-2678 v3、32G DDR4 Centos7 2003 java 1.8 hadoop 2.10.1 hive ...

  • Hive SQL语句使用记录

    清空表 Hive导入csv 作者在导入csv文件后发现数据全是NULL,经过一番搜索发现是分隔符不一致。csv文件的分隔符是','号,hive在...