240 发简信
IP属地:陕西
  • 正则表达式解析包含中英文的unicode字符串

    在抽取oracle等数据库时,由于编码问题需要处理unicode字符串,将字符串中的特殊符号和中文还原。例如:如下UNISTR字符串 UNISTR('\FF08Solar-G...

  • 120
    本地用spark访问开启Kerberos认证的华为云端hive

    本地IDEA搭建开发环境,实现local模式spark对开启Kerberos认证的云端hive数据进行读写操作。 一、环境版本:本地PC: win10开发环境: Intel...

  • 120
    CDH-hdfs配置HA后,hive查询报错

    在CDH平台上配置HA后,hdfs服务正常运行,hive服务可以正常连接,但是进行查询时报错。现象:查询时卡主不动,然后报错显示旧的那么namenode名称,而实际上我们已经...

  • CDH平台-Hue集成Oracle报错:no oracle client library found on host:…

    在Hue的编辑器中可以集成Oralce进行查询,集成过程中报错:no oracle client library found on host:…可以通过以下方法解决:解决方法...

  • Spark SQL UDF函数的两种注册方式

    SparkSQL中可以创建自定义函数UDF对dataframe进行操作,UDF是一对一的关系,用于给dataframe增加一列数据的场景。 每次传入一行数据,该行数据可以是一...

  • Spark中Rdd转换为DataFrame的两种方式

    1. Spark SQL中,将已存在的RDD转换为DataFrame的两种方式。 Inferring the Schema Using Reflection: 使用反射机制来...

  • 120
    Spark中Rdd、Dataframe、Dataset的区别

    1. 概述 本文章将从多个角度介绍Spark中RDD,DataFrame和Dataset的概念以及它们之间的区别。例如,数据表示,不变性和互操作性等,还将说明分别在什么场景下...

  • SparkSQL DataFrame新增一列的四种方法

    SparkSQL中,有时需要根据需求基于原数据新增一些列,下面介绍一下dataframe新增列的四种方法,根据情况可采用不同的方法实现需求。

  • Spark通过jdbc采用分区的方式从oracle读数据

    spark通过jdbc可以从oracle中直接读取数据,返回dataframe。有时由于数据量较大,我们可以采用分区方式通过jdbc多线程并行从oracle中读取数据。 - ...

  • spark应用如何加载spark的相关配置

    官方文档说明 spark加载配置有三种方式: 在应用程序中通过sparkConf配置 在spark-submit提交应用时通过--标签加载配置 --conf 后面跟key=v...

  • Spark SQL Dataframe 写入oracle

    可以看此处文章https://xvlvzhu.github.io/2018/01/07/Spark%E6%93%8D%E4%BD%9C%E6%95%B0%E6%8D%AE%E...