在中等规模以上公司中,跨团队协作是非常常见的事情,这种协作中,总会需要一个owner来全局把控,推动事情不断取得进展。 一般情况下,这个角色会由团队leader(或者职级最高...
在中等规模以上公司中,跨团队协作是非常常见的事情,这种协作中,总会需要一个owner来全局把控,推动事情不断取得进展。 一般情况下,这个角色会由团队leader(或者职级最高...
这次,我们以最简单的方式 socket 网络模型,一步一步地过渡到 I/O 多路复用。 但我不会具体说到每个系统调用的参数,这方面书上肯定比我说得详细。 最基本的 Socke...
偶然读取到了字节跳动关于Spark做的一些优化,发现其中一项被称为BuckedtJoin的优化项 传送门:Spark SQL 在字节跳动数据仓库领域的优化实践 [https:...
吐槽一个ES-reindex迁移的大坑 在做ES跨集群迁移的时候,用到了ES的reindex进行数据迁移,查了很多资料,包括官方文档,比如: https://www.elas...
最近老比登不顾他国的死活,给自己整了个1.9万亿救助计划及4万亿的基建激励计划。相当于变相赢钱,可能会带来通货膨胀。 而我完全看不懂,也不知道对自己有什么影响,打算一步步分析...
Kafka作为一款分布式的消息队列,是如何做到百万级TPS呢?,用了哪些黑科技才能做到如此这般独孤求败呢? 1 页缓存 将磁盘的数据缓存到内存中,把对磁盘的访问变为对内存的访...
事情起因是一位同事写的SparkStreaming程序,总会出现部分Executor上请求broadcast不成功的错误,鉴于此,我专门走读了一下broadcast的相关代码...
平时使用窗口函数最多的情况就是-根据某个字段分组,取组内的TopN(也可能是随机取N条),在没接触窗口函数之前,使用的是groupByKey+flatMap的操作,数据稍微一...
Adaptive Query Exection(自适应查询计划)简称AQE,在最早在spark 1.6版本就已经有了AQE;到了spark 2.x版本,intel大数据团队进...
本文介绍使用Pandas导出Excel,并添加一些简单的格式 1 dataframe.to_excel导出Excel 在一个excel中写入多个sheet页,必须使用Exce...
本文使用以下表做测试例子 1 版本9.5 之后 insert on conflict do)。当插入遇到约束错误时,直接返回或者改为执行UPDATE。 如果希望在插入冲突之后...
1 Task抽象类 org.apache.spark.scheduler.Task提供的抽象方法有: Task中有一个重要的已实现方法Run,会先调用BlockManager...
位于spark-core模块的org.apache.spark.memory.TaskMemoryManager 1 简介 TaskMemoryManager用于管理单个任务...
在Spark中,只要涉及到非Partition级别的数据,都会有一个Block的概念,而这里的Block并不是HDFS的Block,而是Spark内部为了数据存储而设立的一个...
今天听同事做关于Docker的技术分享,结束时已经有点晚了,没法仔细选题,所以就写一个所有人都知道的小知识点吧。 checkpoint(检查点)和savepoint(保存点)...
你怎么不去知乎洗?
38岁谢娜晒美照,十八姑娘一枝花,和张杰夫妻相十足4月6日,谢娜晒出自己十八岁的美照,发文感叹:“哇!十八滴菇凉一朵花,她们说有点像,是么?”谢娜表达了与杰哥结婚这些年来,两人恩爱甜蜜,越来越有夫妻相了。 谢娜在2007年,...
Elasticsearch数据类型及其属性 一、数据类型 字段类型概述 核心类型 1、字符串类型string类型: 在ElasticSearch 旧版本中使用较多,从Elas...
这什么水文?????
当微信变成操作系统的那一天, 苹果和谷歌才知道, 腾讯有多可怕?一旦没有天敌,人们就会变得松懈。澳洲的兔子之所以泛滥成灾,或许就是因为澳洲没有翱翔天际的雄鹰。而在操作系统领域,苹果公司和谷歌公司二分天下,井水不犯河水,日子过得倒也潇洒。 ...