![240](https://cdn2.jianshu.io/assets/default_avatar/4-3397163ecdb3855a0a4139c34a695885.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
研究生三年,作为一名非计算机专业的学生,能够从一名纯小白(Python不会,机器学习没听说过)到最后校招拿到几个不错的offer,个人感觉可以给自己打个及格分吧。写本文的目的...
这篇文章以flink官方local cluster教程为主线,引导大家体验一下flink的初次开发。文章中所提到的代码我已经放到github上,欢迎指正。 下载和启动Flin...
1、生成器Generator 设想我们有一个包含100万个元素的列表,列表占用了很大的存储空间,如果我们仅仅需要访问前面的几个元素,这样就会造成极大的资源浪费。 所以,如果有...
今天查找分布式计算的有关资料,发现Google的三大核心技术MapReduce、GFS和BigTable的论文都已经被翻译成高质量的中文,更巧的是,这三篇中译版的原发地都是C...
前言 Spark 2.0 将流式计算也统一到DataFrame里去了,提出了Structured Streaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结...
一面:遇到了一个搞图像算法的面试官,跟我的方向不太符合,所以没有问太多问题。总体来说比较轻松1、CNN的原理简单说一下。2、SVM的原理。3、链表实现加法,由于给出的链表已经...
最近在How一直想建立起非常专业的data pipeline系统,然后没有很多时间,这几个礼拜正好app上线,有时间开始建立自己的 data pipeline,能够很好的做每...
本文结构: 什么是 ROC? 怎么解读 ROC 曲线? 如何画 ROC 曲线? 代码? 什么是 AUC? 代码? ROC 曲线和 AUC 常被用来评价一个二值分类器的优劣。 ...
1. Apache Kylin 是什么? Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数...
文件写入 1.客户端通过对DistributedFileSystem对象调用create()函数来创建文件2.DistributedFileSystem对NameNode创建...
Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见...
1、线程和进程 计算机的核心是CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运行。 假定工厂的电力有限,一次只能供给一个车间使用。也就是说,一个车间开工的时候,其他车...