身处于高速发展时代下的我们,会有这样一种感觉:对于知识的学习,不再仅仅只局限于学校时所习得的专业知识,毕业后也不代表就不用再学习,相反唯有不断学习才能让自己保持进步。 这是一...
1. 版本兼容 Hive on Spark仅使用特定版本的Spark进行测试,因此只能确保给定版本的Hive与特定版本的Spark一起使用。其他版本的Spark可能与给定版本...
1、背景 Hive是目前大数据领域,事实上的SQL标准。其底层默认是基于MapReduce实现的,但是由于MapReduce速度实在比较慢,因此这几年,陆续出来了新的SQL查...
一.Cookie 1.什么是cookie? Cookie 技术产生源于 HTTP 协议在互联网上的急速发展。随着互联网时代的策马奔腾,带宽等限制不存在了,人们需要更复杂的互联...
4月8日晚,DTalk邀请到了郑栋老师,他是网易互联网分析产品、可视化 BI 产品负责人,进行了一次关于《网易郑栋:数据采集与分析的那些事第一弹: 数据篇》的微信群线上主题分...
本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构...
kafa 吞吐量高的原因 顺序读写 kafka的消息是不断追加到文件中的,这个特性使kafka可以充分利用磁盘的顺序读写性能 顺序读写不需要硬盘磁头的寻道时间,只需很少的扇区...
单例模式可能是代码最少的模式了,但是少不一定意味着简单,想要用好、用对单例模式,还真得费一番脑筋。本文对Java中常见的单例模式写法做了一个总结,如有错漏之处,恳请读者指正。...
文章发布于公号【数智物语】(ID:decision_engine),关注公号不错过每一篇干货。 作者:马海平 于俊 吕昕 向海来源:大数据(ID:hzdashuju)本文摘编...
本文由 沈庆阳 所有,转载请与作者取得联系!在继续下去之前,我们需要提一下泛化。 泛化和过拟合 泛化(Generalization),指的是模型可以很好地拟合新的数据(以前不...
概述及标签体系搭建 1 概述 随着信息技术的迅速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,愈发带来很大的信息负担。推荐系统可以有效缓解此难题,从而得到推崇并加以广...
这篇文章的技术难度会低一些,主要是对推荐系统所涉及到的各部分内容进行介绍,以及给出一些推荐系统的常用算法,比起技术,产品色彩会强不少。参考了《长尾理论》、《推荐系统实践》以及...