任何可以产生对象的方法或类,都可以称之为工厂单例也是一种工厂 getInstance(静态工厂) 不要咬文嚼字,死扣概念 为什么有了new之后,还要有工厂?灵活控制生产过程权...
任何可以产生对象的方法或类,都可以称之为工厂单例也是一种工厂 getInstance(静态工厂) 不要咬文嚼字,死扣概念 为什么有了new之后,还要有工厂?灵活控制生产过程权...
strategy 策略模式 现有一个List<Cat>,要对它进行排序。 用Comparator加泛型新增一个策略 针对不同的设计有不同的排序策略,对它的排序规则进行设计;
饿汉式 在静态代码块中直接加载进jvm;缺点:一开始就会被加载进来。 懒汉式 在初始化时判断是否已经被初始化缺陷:若多线程初始化则会被重复初始化 双重判断加同步锁 在INST...
RDD2DataFrame pom.xml RDD2DataFrameRelection.java Scala版本 RDD2DataFrameDynamic.java RDD...
自定义函数 自定义函数包括三种:UDF、UDAF、UDTF。 UDF(User-Defined-Function) 一进一出 UDAF(User-Defined Aggreg...
服务端启动 配置文件是Hive的配置文件 服务端启动 客户端启动 进入后连接 默认端口号为10000,用户名使用root,无密码 直接连接 JDBC pom.xml文件 Ja...
分区 创建分区表 以性别分区;分区字段不可与表列名重复! 载入分区表数据 介绍load-data:Hive-DML 重新填充假数据 cp data data1并将id改为4,...
创建表 ROW FORMAT 目标文本格式 第三列与第四列都是短线-分隔 第三列为数组;第四列为Map [LINE TERMINATED by char] 行间分隔,默认换行...
对应HADOOP版本是2.5.2 安装MySQL 启动MySQL 进入MySQL 修改用户权限 下载hive apache-hive-1.2.1-bin.tar.gz 修改环...
概述 就目前Docker自身默认的网络来说,单台主机上的不同Docker容器可以借助docker0网桥直接通信,这没毛病,而不同主机上的Docker容器之间只能通过在主机上用...
第3章 映射 映射是定义存储和索引的文档类型以及字段的过程。索引中的每一个文档都有一个类型,每种类型都有它自己的映射。一个映射定义了文档结构内每个字段的数据类型。映射通过配置...
1. 安装虚拟机 virtualbox和centos6.9Centos6.9_x64百度网盘地址:https://pan.baidu.com/s/11RDISh4yB36lV...
作者:黄成 时间:2018年04月09日 1. 安装hanziconv 安装一个简繁体转换的包: 2. 自定义一个itempiples 找到项目中的pipelines.py文...
采集免费代理信息 运行写入json文件 使用代理进行采集 在middlewares.py中添加以下代码: 在settings.py中添加: 新建一个test_random_p...
编辑pipelines.py,添加自定义pipelines类: 接着在settings.py中写入相关配置参数,添加至item_pipelines中:
项目需求 爬取京东商城中所有Python书籍的名字和价格信息。 编码实现 首先,在splash_examples项目目录下使用scrapy genspider...
Splash渲染引擎 Splash是Scrapy官方推荐的JavaScript渲染,它是使用WebKit开发的轻量级无界面浏览器,提供基于HTTP接口的JavaScr...
在pipelines.py中写入MongoDBPipeline,代码如下: 增加类方法from_crawler(cls, crawler),替代在类属性中定义DB_URL和D...