2.3 导出
把实体表数据导出为文本文件同样可以使用gpfdist服务下的外部表和copy命令来实现。Copy导出与导入一样,也是逐个postgresql进行的,在效率上是都低于gpfdist。因为gpfdist是同时从所有的segment向目标文件写数据,是真正的并行工具。不知道为什么EMC公司一直没有将postgresql的COPY,这个应用这么成熟的工具改造升级为并行工具(COPY可以通过非GP的方法来做并行导入导出,但是较为麻烦,且不好监控,暂且不表,可能也很难再表……)。
Gpfdist导出是通过创建可写外部表来实现的。对比只能做select操作的可读外部表,可写外部表也只能做insert操作。
2.3.1 使用Gpfdist下的外部表导出
使用gpfdist当然要首先保证gpfdist 服务是在运行着的。
etl@smdw:~> ps -ef|grep gpfdist
etl 8404 7503 0 11:17 pts/3 00:00:00 grep gpfdist
etl 22913 1 1 Jul07 pts/3 01:12:26 gpfdist -d /backup/etl_data -p 9091 -l /home/etl/gpfdist_9091.log
etltest 26466 1 0 Jul08 pts/3 00:00:44 gpfdist -d /backup/etl_data -p 9092 -l /home/etltest/gpfdist_9092.log
etl@smdw:~>
要保证启动gpfdist的用户etl对目录/backup/etl_data有写的权限。
首先创建可写外部表:
create writable external table stage.tf_f_user_w_external (字段1,字段2,字段3……)
LOCATION ('gpfdist://smdw-1:9091/output/DATAFILE20120718.txt') ……
然后写insert语句:
Insert into stage.tf_f_user_w_external(字段1,字段2,字段3……)
Select字段1,字段2,字段3…… from stage.tf_f_user;
这个select 部分可以随便写,只要字段与外部表的字段能一致对应就可以了,例如:
Insert into stage.tf_f_user_w_external(字段1,字段2,字段3……)
Select a.字段1,b.字段2,c.字段3…… from stage.tf_f_user a inner join stage.tf_f_xxx b on a.user_id=b.user_id;
然后执行这个insert语句就可以把实体表的内容写到可写外部表所指定的文本文件中了(文本文件可以事先不存在,如果存在则对外部表的insert操作会向文本文件里追加数据)。
OK,这样我们就实现了以生成文本文件为目的的导出了。
2.3.2 使用Copy导出
简洁!!
psql -d bi -h xx -p dd -c "\copy (select * from ods.ods_d_mytest) to /home/gpadmin/_hcb/my_data.txt"
-d是数据库名;-h是主master名或ip;-p是数据库端口号;-c是执行命令。
这个跟postgresql原本的copy导出是一模一样的,不到五分钟你就能使用起来。
可以对select 语句进行加工变换以实现多样的导出需求,
也可以在编程的过程中各种对copy批量操作。
2.3.3 使用令人心碎的pg_dump/gp_dump导出(备份)
Pg_dump是逐个节点来串行对外写文件的。
Gp_dump是所有节点同时并行向外写文件的。
一看就知道pg_dump没什么可以说的了,但是还是要提一下,pg_dump是本身postgresql的工具,有一个比较吸引人的优点,它可以直接导出gz压缩的文件,可惜到了EMC这里却没什么发展。
Gp_dump比pg_dump强大,因为它是一个真正的并行工具。
使用gp_dump,首先一定要注意:禁止做全库备份!
因为我们的数据量绝对是海量(GP就是为了海量而生),全库备份即没有必要,而且可能也几乎不能实现。
同时GP系统本身有镜像机制,每行数据都是双份存储的,所以也没有必要做全库备份。很奇怪,EMC为什么没有禁止掉他的全库备份功能。
Gp_dump可以用来把一个表的数据导出为文本文件,并且可以直接生成为压缩文件(这一点非常好)。
但是,导出表数据为文本文件不是纯的数据文件,就是生成的文本文件里面会包含一堆什么GP万岁之类的话,没有找到什么参数去掉,不利于导入到别的类型的数据库里,很是讨厌。例如:
大家执行gp_dump -t 'ods.ods_xmx' -a bi -U gpadmin,把bi库里面的表ods.ods_xmx导出。
完成之后,查看gp_dump_0_3_20120318164648这样格式名称的文件会发现包含了以下废话:
-- Greenplum Database database dump
另外还能发现gp_dump实际上就是一个封装了copy的东西,通过多 个copy并行来实现导出。