今天偶然在人人上看到微软亚研院分享的Lamport的采访视频,心情也比较好,就点进去看了。全英文没有字幕也许是一道屏障,还好之前被训练过,耐着性子也能看完。边看边记边傻笑,人...
1、rdd有哪些算子? 主要分为转换算子和action算子。 transformation:map、filter、flatmap、mappartitions、union、...
测试如何使用spark-submit来执行编写的wordcount代码。 1、先简单编写测试文本。 2、将文本提交到hdfs上。 指令为:hadoop fs -put 本地路...
1、rowkey设计有哪三原则? ①长度原则:rowkey是二进制码流。10-100个字节。 ②散列原则:rowkey是按照字典序存储的。利用该规则,将数据均衡的分到不同...
要理解读写流程,先要清除hbase的架构图。以0.96版本以下的三层架构为例: hbase是主从架构,主节点是HMaster,从节点是HRegionServer。 HMast...
--基础设置 1、资源参数设置: --num-executors 配置Executor的数量 默认为2 --driver-memory 配置Driver内存 默认为1...
1、你在工作当中有遇到内存溢出问题吗?你是如何解决的? 回答思路:先解释spark的内存模型,再分情况介绍不同情况下的解决方案。总体思想是根据内存模型找出不够的那一块内存...
1、简单介绍yarn? yarn是一个资源管理、任务调度的框架。主要包含三个模块:resourceManger、nodeManger、ApplicationMater。 2、...
20200405--两数之和 给定一个整数数组 nums和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标。 你可以假设每种输入只会对...
1、简单介绍下hadoop吧? 广义上hadoop是指与hadoop相关的大数据生态圈。包含hive、spark、hbase等。 狭义上hadoop指的是apache...
1、hive是什么? 本质是将sql转换成mr程序。 2、hive的架构? 客户端:CLI(shell命令行)、GUI(图形化界面)、jdbc(java实现) 元...
1、请解释下cap理论? cap指的是分布式系统中的一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)...
https://www.cnblogs.com/lanqiu5ge/p/9405601.html 1、zookeeper是什么? zk是给分布式集群提供协调和管理服务的框架。...
1、hashmap实现原理? 1.7的底层数据结构是数组+链表。1.8之后是数组+链表+红黑树。保存的数据类型为key-value对。允许key和value的值为null。 ...