![240](https://cdn2.jianshu.io/assets/default_avatar/9-cceda3cf5072bcdd77e8ca4f21c40998.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
字节跳动内推了 ~~~ 如果是社招,邮件名请以“姓名-职位”命名,发送简历到 liaojiayi@bytedance.com如果是校招,直接访问投递链接: https://j...
个人见解 :)。
数据SCT定律:存储,计算,时间其实没有SCT定律,这个是我根据分布式CAP定律瞎造的。不过呢,从大数据这个行业来说,我们始终都是在存储,计算和时间进行权衡,博弈以及突破。某种程度上来说,当拥有其中两者,可...
文章很棒!
```
我们没有一个统一的大数据应用,还是各种应用孤立的跑在硬件上(我们会把Yarn,K8s当做硬件),这个时候我们会尝试使用Spark,Preso,Impala,Kylin等各种系统解决各自的问题。
```
关于这点,YARN和K8S在数据处理中更多的是承担一个资源管理的作用。而Spark,Presto,Impala等本身更专注于计算(ETL)本身。Kylin是一个相对完备的OLAP系统,从处理到查询展现。这些本身跟YARN等资源管理组件并没有冲突哈。
数据SCT定律:存储,计算,时间其实没有SCT定律,这个是我根据分布式CAP定律瞎造的。不过呢,从大数据这个行业来说,我们始终都是在存储,计算和时间进行权衡,博弈以及突破。某种程度上来说,当拥有其中两者,可...
注:本文转自我的个人博客。 Watermark是流式处理中的一个基础概念,关于Watermark的概念有很多,在这里不做阐述。 Watermark特性 这不是官方的表述,我根...
最近遇到这个Exception,发现不少开源框架在实现快速读写文件时,采用的都是FileChannel的map方法,示例如下: 这个方法的作用是将文件映射到堆外内存中,然后通...
注:本文转自我的个人博客(Spark - 利用WeakReference来清理对象)。 最近在stackoverflow上看到有人好奇Spark是在什么时机对Accumula...
注:本文转自我的个人博客(Bitmap - 性能和原理研究) Paper原文地址:An Experimental Study of Bitmap Compression vs...
先科普一下大名鼎鼎的Two Sigma吧。2001年创立,现在管理多达500亿美金的资产,排名对冲基金公司的全球第四!!!做为一家知名的对冲基金,为何他们给Apache Sp...
注:本文转自我的个人博客 Aerospike(3) - Evict机制。 在实时的场景中,我们往往会对Aerospike/Redis等设置evict机制,来防止流量暴增带来的...
当今的自主驾驶是典型的数据驱动的产业,八仙过海各显神通。无论技术多么先进,他们所有决策和算法都是来基于senor产生的数据。比如,以Udacity Lincoln MKZ为例...