最近开始刷 VLDB 2019 中感兴趣的 paper, 今天开始第一篇: 来自阿里云的分析性数据库 AnalyticDB 由于这是一个云厂商的商业产品, 因此写之前还是事先...
最近开始刷 VLDB 2019 中感兴趣的 paper, 今天开始第一篇: 来自阿里云的分析性数据库 AnalyticDB 由于这是一个云厂商的商业产品, 因此写之前还是事先...
好的算法模型需要有大量的数据来“喂”,哪怕最开始的算法模型很简单很不合理,通过大规模的数据且结合一些方式方法也能“喂养”出好的模型来。 所以,如何利用现有数据成了最初的关键点...
好的算法模型需要有大量的数据来“喂”,哪怕最开始的算法模型很简单很不合理,通过大规模的数据且结合一些方式方法也能“喂养”出好的模型来。 所以,如何利用现有数据成了最初的关键点...
今年听到最多的是"认知升级" 这个词儿, 不敢高攀, 总结2018年倒是想清楚了几个道理, 值得记录一下. FBI WARNING: 写完了回过头自己读了一遍, 发现简直就是...
Pinot是一个每秒可以处理数以万计分析类查询的系统,支持近实时地从流式数据源进行数据摄取。简单来说作为一个分析类系统:数据进得快、查询返回快。 为了达到数据消费的实时性,P...
前几天说过发起了一个《一起读Paper》的活动,今天结合自己的经验聊聊怎么去读一篇论文。 我们读论文往往都是想从中学到点经验,读完一篇论文一定要有一定的产出,否则也就看个热闹...
最近抽风,没事会在知乎上回答一些问题,也许是想在这个世界上多留下点痕迹吧 :) 几次看到类似这样的题目: 作为一个程序员,如何提高自己? 我经常是这么回答的: 看开源优秀代码...
对于分布式存储系统,我们都会使用多副本的机制来保证数据的安全性。譬如对于 TiKV 来说,我们默认会使用 3 个副本,如果需要更高等级的安全性,譬如在银行领域,我们则会使用 ...
数据分析时, 我们经常会看各种的转化漏斗, 最简单的例子, 从搜索结果页到商品详情页再到下单和付款. 最近在想, 一个人的知识技能也是一样, 简化一下, 觉得可以分成三个层面...
Slice是Presto里面用来对内存高效地、自由地进行操作的接口。它在Presto里面很关键, Presto里面另外一个关键类 Block 就大量用到了它,要充分理解 Bl...
数据平台会用很多计算资源, 一台算不了就要分布式, 因此需要一个计算资源调度的服务. "江河日下"的 Yarn 作为一个经常跟 Hadoop 生态打交道的数据工程师, 首先逃...
了解新西兰 新西兰地理 新西兰的面积接近27万平方公里,人口才400百多万。这是什么概念呢?江浙沪加起来才20万平方公里。全国人口不到杭州市的一半。可谓是地广人稀。 新西兰位...
Presto作为一个计算引擎,除了支持一些常见的数字、字符串类型的数据,还支持一些别的系统里面比较少见的自定义的 IpAddress, Geometry 等等高级类型,今天来...
写文章这个事,跟其众多没能坚持下来的习惯一样,提起过很多次,放弃过更多次。虽然也有备忘录和Mweb记录日常,但缺乏梳理和总结,很碎片化。 写作这事,道理都懂,但就是坚持不下来...