1.首先创造数据,数据有4列分别是店铺id、订单id、订单金额、订单日期。 数据如下: 2.计算月销售额占比通过窗口函数实现,首先聚合月销售额,之后再根据月销售额集合为年销售...
1.首先创造数据,数据有4列分别是店铺id、订单id、订单金额、订单日期。 数据如下: 2.计算月销售额占比通过窗口函数实现,首先聚合月销售额,之后再根据月销售额集合为年销售...
docker image prune
571. 给定数字的频率查询中位数[https://leetcode-cn.com/problems/find-median-given-frequency-of-numbe...
16. 最接近的三数之和[https://leetcode-cn.com/problems/3sum-closest/] 给定一个包括 n 个整数的数组 nums 和 一个目...
先说个常见的面试题,对非常多的数据进行排序,例如对5亿个数进行排序,但是内存中只能容纳5千万的数据,这时候就要用到外部排序,多路归并排序。这里不做详细介绍,只说下大概的流程:...
175. 组合两个表[https://leetcode-cn.com/problems/combine-two-tables/] 176. 第二高的薪水[https://le...
数据: 注意:| 3|2020-09-04|| 3|2020-09-04|这里是有重复的,所以第一步是去重复: 第二步:同一个user_id的登录时间进行...
在shuffle过程中会进行多次的溢出到磁盘的操作,那么条件是什么呢?这个方法maybeSpill就是判断是否进行溢出操作的。1.不是每加载一个数据进行一次判断的,而是每隔3...
CountDownLatch是一个线程等待其他的所有线程执行完成。先对数组进行分段,每段求和,主线程等待所有线程计算完成之后,在执行整体求和。
CyclicBarrier的作用是拦截多个线程,当所有线程到达指定位置时,在开始往下面执行,否则线程等待。两种构造函数: 其中parties是线程个数,barrierActi...
(先区分一个概念,rdd的分区数和rdd的分区器(partitioner)的分区数不是一个)reduceByKey groupByKey join等,如果没有明确的标记出来分...
PageRank算法原理剖析及Spark实现 姓名:余玥 学号:16010188033 转载自http://blog.csdn.ne...
java写的程序,所以程序中使用的都是java的类和api,例如JavaStreamingContext,JavaReceiverInputDStream,JavaDStre...
25. K 个一组翻转链表
简单3星 155. 最小栈 看解题 155. 最小栈 226. 翻转二叉树 234. 回文链表 看解题 69. x 的平方根 415. 字符串相加 83. 删除排序链表中的重...
网上graphx实现最短路径的代码比较多,但是都是scala版本,java版本的实现很少。1.创建图数据使用的方法是Graph.apply(),下面看一下scala的该方法的...
8. 字符串转换整数 (atoi)
ExternalSorter:1.可以对数据进行聚合。2.使用分区计数器首先将key分组到各个分区中,然后使用自定义的比较器对每个分区中的key进行可选的排序;3.将每个分区...
1260. 二维网格迁移 1266. 访问所有点的最小时间 1287. 有序数组中出现次数超过25%的元素 1290. 二进制链表转整数 1295. 统计位数为偶数的数字 1...
844. 比较含退格的字符串 849. 到最近的人的最大距离 860. 柠檬水找零 868. 二进制间距 872. 叶子相似的树 876. 链表的中间结点 896. 单调数列...