前期技术选型
技术选型确定
鉴于开发资源,以及尚无大数据的技术基础,选用了可以快速上手的
阿里云maxcompute服务
开发流程图:
maxcompute组件,大致分为几部分:
1.数据集成:配置数据源,用于读取或者回写
支持多种数据源
- MySQL数据源
- SqlServer数据源
- PostgreSQL数据源
- MaxCompute数据源
- DRDS数据源
- Oracle数据源
- OSS数据源
- FTP数据源
- HDFS数据源
- MongoDB数据源
- AnalyticDB数据源
- Memcache数据源
- RDS数据源
- Redis数据源
2.数据开发:数据仓库离线任务编写
- OPEN_MR 任务
OPEN_MR 任务用于在 MaxCompute 的 MapReduce 编程接口(Java API)基础上实现的数据处理程序的周期运行,使用示例请参见 创建 OPEN_MR 任务。
MaxCompute 提供了 MapReduce 编程接口,您可以使用 MapReduce 提供的接口(Java API)编写 MapReduce 程序处理 MaxCompute 中的数据,并打包成为 JAR 等类型的资源文件上传到大数据开发套件中,然后配置 OPEN_MR 节点任务。
- ODPS_MR 任务
MaxCompute 提供 MapReduce 编程接口,您可以使用 MapReduce 提供的接口(Java API)编写 MapReduce 程序处理 MaxCompute 中的数据,您可以通过创建 ODPS_MR 类型节点的方式在任务调度中使用,使用示例请参见 ODPS_MR 任务。
- ODPS_SQL 任务
ODPS_SQL 任务支持您直接在 Web 端编辑和维护 SQL 代码,并可方便地调试运行和协作开发。大数据开发套件还支持代码内容的版本管理和上下游依赖自动解析等功能,使用示例请参见 新建任务。
大数据开发套件默认使用 MaxConpute 的 project 作为开发生产空间,因此 ODPS_SQL 节点的代码内容遵循 MaxCompute SQL 的语法。MaxCompute SQL 采用的是类似于 Hive 的语法,可以看作是标准 SQL 的子集,但不能因此简单地把 MaxCompute SQL 等价成一个数据库,它在很多方面并不具备数据库的特征,如事务、主键约束、索引等。
- 数据同步任务
数据同步节点任务是阿里云数加平台对外提供的稳定高效、弹性伸缩的数据同步云服务。您通过数据同步节点可以轻松地将业务系统数据同步到 MaxCompute 上来。详情请参见 创建同步任务。