1:如果不考虑当天刚开始是关播或者连续的关播,当天最后是开播或者连续的开播 select id,sum(length) as all_time from (select id...
table : user 字段:uid begin end select uid,sum(time) as all_time from (select uid, (case ...
group by + udf 和这种纯sql相比哪种更好呢
用HiveQL计算连续天数问题的方法昨晚简书服务器可能出了什么bug,文章发布出去都会变成完全空白。没办法,只能断更一天,放在今天发了,大概能达到十万字里程碑了吧。 在日常工作中,可能经常会接到业务方类似这样的...
数学不扎实看着一脸懵逼
再谈基数估计之HyperLogLog算法前言 在很久(好像也没多久,4个月)之前,我曾经写了一篇和主业无关的有点意思的小文章《基数估计探秘:Linear Counting与Flajolet-Martin算法》。但是...
赞,很有用
Spark开发—JAR包版本冲突问题解决问题 在spark程序中,经常需要一些外部的依赖(比如Zookeper、libthrift等),这些依赖可能本身在spark或者Hadoop客户端的jar包中就已经存在。当用...
堆外内存呢
Spark Core源码精读计划#25:UnifiedMemoryManager——统一内存管理机制目录 前言 统一内存管理器UnifiedMemoryManager构造方法计算内存量统一内存管理布局图示申请/借用存储内存申请/借用执行内存 总结 前言 在前文的末尾,我们分...
大佬, 商品种类巨大的并且读写qps很高的情况下, 使用redis的zset存储,实际上可行吗~
基于Kafka+Flink+Redis的电商大屏实时计算案例前言 一年一度的双11又要到了,阿里的双11销量大屏可以说是一道特殊的风景线。实时大屏(real-time dashboard)正在被越来越多的企业采用,用来及时呈现关键的数...