240 发简信
IP属地:浙江
  • intellij idea

    快速理解Spark Dataset

    1. 前言 RDD、DataFrame、Dataset是Spark三个最重要的概念,RDD和DataFrame两个概念出现的比较早,Dataset相对出现的较晚(1.6版本开...

  • 关于向量范数的理解

    最近搞深度学习用到了范数的概念(准确地说是向量范数),我在这里作一下简单的解释,未必100%准确,但是对我来说已经够用了。首先,在试图理解之前,我们先看一下它们的数学定义: ...

  • 【面试】HBase面试题

    以下大部分题目是从网上搜索得来,答案是笔者给的,若有错误,烦请指出,谢谢。 1 每天百亿数据存入HBase,如何保证数据的存储正确和在规定的时间里全部录入完毕,不残留数据 答...

  • 当SparkSQL遇上Alluxio

    前言 Alluxio官方文档介绍了Hive的配置方法,也介绍了Spark的配置方法,重点介绍了Spark程序如何访问Alluxio上的文件,但是没有介绍如何配置SparkSQ...

个人介绍
致力于云计算、大数据、人工智能领域B端产品研发,以微薄的力量助力百行百业数字化的升级和蜕变。