240 发简信
IP属地:海南
  • 【内推】【社招/校招】字节跳动 大数据和分布式计算的同学看过来~

    字节跳动内推了 ~~~ 如果是社招,邮件名请以“姓名-职位”命名,发送简历到 liaojiayi@bytedance.com如果是校招,直接访问投递链接: https://j...

  • 个人见解 :)。

    数据SCT定律:存储,计算,时间

    其实没有SCT定律,这个是我根据分布式CAP定律瞎造的。不过呢,从大数据这个行业来说,我们始终都是在存储,计算和时间进行权衡,博弈以及突破。某种程度上来说,当拥有其中两者,可...

  • 文章很棒!

    ```
    我们没有一个统一的大数据应用,还是各种应用孤立的跑在硬件上(我们会把Yarn,K8s当做硬件),这个时候我们会尝试使用Spark,Preso,Impala,Kylin等各种系统解决各自的问题。
    ```
    关于这点,YARN和K8S在数据处理中更多的是承担一个资源管理的作用。而Spark,Presto,Impala等本身更专注于计算(ETL)本身。Kylin是一个相对完备的OLAP系统,从处理到查询展现。这些本身跟YARN等资源管理组件并没有冲突哈。

    数据SCT定律:存储,计算,时间

    其实没有SCT定律,这个是我根据分布式CAP定律瞎造的。不过呢,从大数据这个行业来说,我们始终都是在存储,计算和时间进行权衡,博弈以及突破。某种程度上来说,当拥有其中两者,可...

  • 聊聊Apache Flink中的Watermark

    注:本文转自我的个人博客。 Watermark是流式处理中的一个基础概念,关于Watermark的概念有很多,在这里不做阐述。 Watermark特性 这不是官方的表述,我根...

  • java.lang.OutOfMemoryError: Map failed

    最近遇到这个Exception,发现不少开源框架在实现快速读写文件时,采用的都是FileChannel的map方法,示例如下: 这个方法的作用是将文件映射到堆外内存中,然后通...

  • Spark - 利用WeakReference来清理对象

    注:本文转自我的个人博客(Spark - 利用WeakReference来清理对象)。 最近在stackoverflow上看到有人好奇Spark是在什么时机对Accumula...

  • Bitmap - 性能和原理研究

    注:本文转自我的个人博客(Bitmap - 性能和原理研究) Paper原文地址:An Experimental Study of Bitmap Compression vs...

  • 120
    管理500亿美金的对冲基金给Spark社区贡献代码?

    先科普一下大名鼎鼎的Two Sigma吧。2001年创立,现在管理多达500亿美金的资产,排名对冲基金公司的全球第四!!!做为一家知名的对冲基金,为何他们给Apache Sp...

  • Aerospike(3) - Evict机制

    注:本文转自我的个人博客 Aerospike(3) - Evict机制。 在实时的场景中,我们往往会对Aerospike/Redis等设置evict机制,来防止流量暴增带来的...

  • 120
    自主驾驶里的Apache Spark

    当今的自主驾驶是典型的数据驱动的产业,八仙过海各显神通。无论技术多么先进,他们所有决策和算法都是来基于senor产生的数据。比如,以Udacity Lincoln MKZ为例...

个人介绍
数据工程师。
热衷于各种话题的分享和交流。
目前只在个人博客上做更新。
个人主页:http://www.liaojiayi.com