最近在做Azkaban方面的工作,需要了解下Azkaban上传文件的存储机制。下面我们简要分析下Azkaban中的zip文件上传的过程:
zip文件上传的时候首先缓存到temp文件夹下,然后上传到MySQL中,并更新相关信息。当上成功上传到MySQL后将删除本地缓存文件。
其中上传的相关表代码及过程如下:
上传包括以下操作:
logger.info("Uploading file to db " + archive.getName());
logger.info("Uploading flow to db " + archive.getName());
logger.info("Changing project versions " + archive.getName());
logger.info("Uploading Job properties");
logger.info("Uploading Props properties");
由此可以看出,Azkaban上传zip的时候主要涉及到以下几个表:
1. project_files
Uploading file to db指的是将zip文件上传到project_files表中,具体操作代码以及流程如下:
sql语句如下:
"INSERT INTO project_files (project_id, version, chunk, size, file) values (?,?,?,?,?)";
上传过程按照CHUCK_SIZE(默认10M)将zip进行切片,然后上传,本文以一个59M的文件做实验,结果如下,可以看出分成(5*10+9):
在project_files中,其存储zip文件的字段为file类型为longblob。
2.project_flows
在project_flows中,插入一条上传的信息:
sql语句:
"INSERT INTO project_flows (project_id, version, flow_id, modified_time, encoding_type, json) values (?,?,?,?,?,?)";
查看更新的flow信息:
3.project_versions
当上传新的文件,MySQL会在project_versions中记录本次上传的版本信息。同时,更新其在projects的版本信息。该版本信息记录的是当前执行的project版本,因为用户会上传多个版本,需要一个地方记录project的最新版本号,使得用户能够执行最新的上传版本。不过,用户每次执行flow的时候,只有在第一次才会从MySQL中获得版本信息,后面都是直接从内存的对象中获得版本。
Sql语句:
"UPDATE projects SET version=?,modified_time=?,last_modified_by=? WHERE id=?";
当用户上传一个新的版本时,version自动加1: