简介 特征离散化指的是将连续特征划分离散的过程:将原始定量特征的一个区间一一映射到单一的值。离散化过程也被表述成分箱(Binning)的过程。特征离散化常应用于逻辑回归和金融...
简介 特征离散化指的是将连续特征划分离散的过程:将原始定量特征的一个区间一一映射到单一的值。离散化过程也被表述成分箱(Binning)的过程。特征离散化常应用于逻辑回归和金融...
pandas Series:一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对...
(来源:CommonLounge) 线性回归(Linear Regression)是一个简单的机器学习模型,用于解决回归问题。如:目标变量是一个实际的值。 一、问题示例 我们...
高数答案(上) 高数答案第一章 高数答案第二章 高数答案第三章 高数答案第四章 高数答案第五章 高数答案第六章 高数答案第七章 高数答案(下) 高数答案第八章 高数答案第九章...
一、kafka默认的发送一条消息的大小是1M,如果不配置,当发送的消息大于1M是,就会报错 二、具体配置 1、 kafka topic 2、server.properties...
一、单机版kafka的安装 1、下载kafka的安装包并解压 tar -txvf kafka_2.11-0.9.0.1.tgz -C path(需要解压到的路径) 2、配置环...
一直以来都是在UI界面上查看Spark日志的,但有时想在终端里面查看某个job的日志该怎么看呢?今天特地查了下资料,找到如下命令: 1、查看某个job的日志 yarn lo...
一、HDFS的shell(命令行客户端)操作 二、hdfs的工作机制 1、概述 2、HDFS写数据的流程 2.1、概述 客户端要向HDFS写数据,首先要跟namenode通信...
一、hadoop背景介绍 1.1 什么是HADOOP HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海...