小癫僧 - 简书

发简信

小癫僧

0
关注
4
粉丝
7
文章
25472

字数
8

收获喜欢

IP属地：北京

小癫僧

天池Python学习小组（1）
一 print() 函数 print(*objects, sep=' ', end='\n', file=sys.stdout, flush=False) 将对象以字符串表示...

246 0 0
小癫僧

831191fa62a2
写了 0 字，被 26042 人关注，获得了 530 个喜欢

小癫僧

ce6c3d7bcac1
写了 0 字，被 119173 人关注，获得了 8336 个喜欢
小癫僧

刘旷
写了 0 字，被 324780 人关注，获得了 3601 个喜欢

以禅道参悟互联网、微信公众号：liukuang110
小癫僧

智科技
写了 0 字，被 129218 人关注，获得了 1230 个喜欢

数码家电行业资深从业者，产业观察家，TMT分析师。长期从事新零售、新消费、物联网、大数据、大金融、智能硬件、AI、智能制造领域的追踪报道及研究。
小癫僧

spark 面试题（1）
1.spark中的RDD是什么，有哪些特性？答：RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表...

1405 0 1
小癫僧

spark 面试题（2）
33.选择题二、选择题 1. Spark 的四大组件下面哪个不是 (D ) A.Spark Streaming B. Mlib C Graphx D.Spark R 2...

3943 0 1

小癫僧

如何关闭 sparkstreaming 任务
因为Spark Streaming流程序比较特殊，所以不能直接执行kill -9 这种暴力方式停掉，如果使用这种方式停程序，那么就有可能丢失数据或者重复消费数据。为什么呢？...

2308 0 0
小癫僧

Spark使用parquet文件存储格式能带来哪些好处
1.Spark使用parquet文件存储格式能带来哪些好处？ 1) 如果说HDFS 是大数据时代分布式文件系统首选标准，那么parquet则是整个大数据时代文件存储格式实时首...

2506 0 0
小癫僧

Hive 处理数据倾斜
在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的 Counters是整个Job的总和，优化是基于...

732 0 1
小癫僧

Hive 如何使用mapjoin
MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Reduce任务也就不需要经过shu...

27508 0 5
小癫僧

@IT·互联网
若锦编，69990 篇文章，2648914 人关注

Hi，很高兴在@IT·互联网专题遇见你。收录范围：收录IT&互联网行业观察与思考，数码产品极客体验分析等类型文章投稿须知：https://www.jianshu.com/p/4edc76104c27 专题主编：@若锦 https://www.jianshu.com/u/e4c63b354a77 官方社群：可联系添加 @若锦加入专题官方社群交流、学习，添加时备注简书ID。

小癫僧