通过squid做代理访问网页 首先安装squid参考:https://www.jianshu.com/p/24b40b657d22[https:...
之前在windows上配置全局上网方式用的是cisco的anyconnect,在Ubuntu下面也安装了cisco的anyconnect:htt...
词向量也称为词嵌入,是指将词转换成为向量的形式。 为何需要词向量 对于非结构化的数据:音频,图片,文字。前面两种的数据存储方式是天然高维和高密度...
Spark提供了三种主要的与数据相关的API: RDD DataFrame DataSet 下面详细介绍下各自的特点: RDD 主要描述:RDD...
Spark的MLlib专门设计了一些工具用来对ML算法和Pipeline进行调优。比如内置的交叉验证和其他工具能够方便用户对算法和Pipelin...
Spark的MLlib实现了协同过滤(Collaborative Filtering)这个功能。官网文档链接 熟悉推荐算法的同学可能也有这个认识...
整理归纳在Python中使用对数据处理的常用方法,包括与HDFS文件的读写,主要是怕用的时候记不住,容易搞混,再搜也不爽,好记性不如烂笔头,写下...
最近因为工作需要,要研究下TensorFlow,所以总结下我这两天在Windows平台上安装的经历。或许有人能用到。首先说下,我安装的时候Ten...
介绍 本篇文章主要摘自Spark官网的Spark Programming Guide,在之前的一篇文章中已经有对这里面一些概念的基本介绍,这里就...