定时任务框架选型

1.quartz

quartz 的常见集群方案如下，通过在数据库中配置定时器信息，以数据库悲观锁的方式达到同一个任务始终只有一个节点在运行

优点

· 保证节点高可用（HA），如果某一个几点挂了，其他节e 点可以顶上

缺点

- 同一个任务只能有一个节点运行，其他节点将不执行任务，性能低，资源浪费

- 当碰到大量短任务时，各个节点频繁的竞争数据库锁，节点越多这种情况越严重。性能会很低下

- quartz 的分布式仅解决了集群高可用的问题，并没有解决任务分片的问题，不能实现水平扩展

结论：quartz作为开源作业调度中的佼佼者，是作业调度的首选，但是因为存在一些问题，其他的定时任务框架有好多是基于quartz做的拓展式的开发，能够体现quartz作为作业调度的作用，同事也弥补了其缺陷，所以，暂时不考虑

2.light-task-scheduler

框架概况

LTS(light-task-scheduler)主要用于解决分布式任务调度问题，支持实时任务，定时任务和Cron任务。有较好的伸缩性，扩展性，健壮稳定性而被多家公司使用。

LTS 有主要有以下四种节点：

- JobClient：主要负责提交任务, 并接收任务执行反馈结果。

- JobTracker：负责接收并分配任务，任务调度。

- TaskTracker：负责执行任务，执行完反馈给JobTracker。

- LTS-Admin：（管理后台）主要负责节点管理，任务队列管理，监控管理等。

其中JobClient，JobTracker，TaskTracker节点都是无状态的。可以部署多个并动态的进行删减，来实现负载均衡，实现更大的负载量, 并且框架采用FailStore策略使LTS具有很好的容错能力。

LTS注册中心提供多种实现（Zookeeper，redis等），注册中心进行节点信息暴露，master选举。(Mongo or Mysql)存储任务队列和任务执行日志, netty or mina做底层通信, 并提供多种序列化方式fastjson, hessian2, java等。

LTS支持任务类型：

- 实时任务：提交了之后立即就要执行的任务。

- 定时任务：在指定时间点执行的任务，譬如今天3点执行（单次）。

- Cron任务：CronExpression，和quartz类似（但是不是使用quartz实现的）譬如 0 0/1 * * * ?

支持动态修改任务参数,任务执行时间等设置,支持后台动态添加任务,支持Cron任务暂停,支持手动停止正在执行的任务(有条件),支持任务的监控统计,支持各个节点的任务执行监控,JVM监控等等.

架构图

流程图

结论：集群部署，支持分片，git上有较完善的文档，有可视化界面，由阿里提供，具有比较完善的拓展方式，功能也较完善，但是已经三年没有维护，原则上要选择社区活跃的架构，所以不考虑

3.antares

Antares特性

基于Quartz的分布式调度

- 一个任务仅会被服务器集群中的某个节点调度，调度机制基于成熟的Quartz，antares内部会重写执行逻辑；

并行执行

- 用户可通过对任务预分片，有效提升任务执行效率；

失效转移

- 客户端实效转移：当某个客户端实例在执行任务中宕机时，其正在执行的分片将重新由其他客户端实例执行；

- 服务器失效转移：当服务器集群中某个节点宕机时，其正在调度的任务将转移到其他节点去调度；

弹性扩容

- 客户端扩容：客户端可通过增加应用实例，提升任务执行的效率；

- 服务器扩容：服务器集群可通过增加节点，提升集群任务调度的服务能力；

进程级的应用实例

- antares通过ip+进程号标识客户端应用实例，因此支持单机多应用实例部署；

任务依赖

- antares支持树形任务依赖，当某任务执行完成后，会通知其后置任务执行；

任务报警

- antares支持基本的任务超时报警，失败报警等；

管理控制台

- 用户可通过控制台antares-tower对任务进行基本操作，如触发，暂停，监控等。

Antares架构

结论：集群部署，以zk为注册中心，支持分片，git上有较完善的文档，有可视化见面，可弹性扩容，用redis来做持久化，基本功能也完备，但是已经三年没有维护，原则上要选择社区活跃的架构，所以不考虑

4.opencron

一个功能完善真正通用的linux定时任务调度定系统,满足多种场景下各种复杂的定时任务调度,同时集成了linux实时监控,webssh,提供一个方便管理定时任务的平台.

缺点

- 仅支持 kill任务，现场执行，查询任务运行状态等，主要功能是着重于任务的修改和查询上。

- 不能动态的添加任务以及任务分片。

结论：功能较简单，集群部署，文档较少，已经三年没有更新，不做考虑

5.Saturn

Saturn (任务调度系统)是唯品会开源的一个分布式任务调度平台，取代传统的Linux Cron/Spring Batch Job的方式，做到全域统一配置，统一监控，任务高可用以及分片并发处理。

Saturn是在当当开源的Elastic Job基础上，结合各方需求和我们的实践见解改良而成。

重要特性

- 支持多种语言作业，语言无关(Java/Go/C++/PHP/Python/Ruby/shell)

- 支持秒级调度

- 支持作业分片并行执行

- 支持依赖作业串行执行

- 支持作业高可用和智能负载均衡

- 支持异常检测和自动失败转移

- 支持异地容灾

- 支持多个集群部署

- 支持跨机房区域部署

- 支持弹性动态扩容

- 支持优先级和权重设置

- 支持docker容器，容器化友好

- 支持cron时间表达式

- 支持多个时间段暂停执行控制

- 支持超时告警和超时强杀控制

- 支持灰度发布

- 支持异常、超时和无法高可用作业监控告警和简易的故障排除

- 支持失败率最高、最活跃和负荷最重的各域各节点TOP10的作业统计

- 经受住唯品会生产800多个节点，每日10亿级别的调度考验

结论：该框架具有非常完善的功能点，基于elastic-job进行开发，拥有quartz的强大功能，基本包含初版elastic-job的基本功能点，当前更新的活跃程度一般，有非常丰富的开发文档以及部署文档，可以作为参考框架之一。

6.xxl-job

XXL-JOB是一个分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。

特性

1.中心制

调度中心HA（中心式）：调度采用中心式设计，“调度中心”自研调度组件并支持集群部署，可保证调度中心HA；

执行器HA（分布式）：任务分布式执行，任务”执行器”支持集群部署，可保证任务执行HA；

2.高可用

调度中心：支持多节点部署，基于数据库行锁，在触发器的名称和执行时间相同前提下，确保仅有一个调度中心节点会执行任务下发工作。

执行器：支持多节点部署，通过调度中心选择其中的执行器，下发任务来执行。

3.策略路由

忙碌转移、故障转移、最先节点、最后节点、节点轮询、节点随机、一致性HASH、最少使用节点、最久未用节点、分片广播。

4.阻塞处理

单机串行、丢弃后续调度、覆盖之前调度。

5.故障处理

故障转移、失败重试、任务超时中断。

以上是项目的一些主要特性，还包括告警、GLUE、各种语言支持、国际化、容器化等等的特性，内容丰富，功能强大

而且相对来说简单易用，部署简单，配置简单

缺点

中心化部署，数据库行锁，性能会存在一定的瓶颈，但是对于公司比较小的流量来说，足够使用

7.elastic-job

ElasticJob 是面向互联网生态和海量任务的分布式调度解决方案，由两个相互独立的子项目 ElasticJob-Lite 和 ElasticJob-Cloud 组成。它通过弹性调度、资源管控、以及作业治理的功能，打造一个适用于互联网场景的分布式调度解决方案，并通过开放的架构设计，提供多元化的作业生态。它的各个产品使用统一的作业 API，开发者仅需一次开发，即可随意部署。

特性

1.分布式调度

无作业调度中心节点，基于部署作业节点到达设定时间点时各自触发调度；注册中心仅用于作业注册和监控信息存储，而主作业节点仅用于处理分片和清理等功能。

2.作业高可用

提供安全的方式执行作业。将分片总数设置为1，并使用多于1台的服务器执行作业，作业将会以1主n从的方式执行。

一旦执行作业的服务器崩溃，等待执行的服务器将会在下次作业启动时替补执行。开启失效转移功能效果更好，可以保证在本次作业执行时崩溃，备机立即启动替补执行。

3.资源利用率

提供最灵活的方式，最大限度的提高执行作业的吞吐量。将分片项设置为大于服务器的数量，最好是大于服务器倍数的数量，作业将会合理的利用分布式资源，动态的分配分片项。

4.分片与业务解耦

不直接提供数据处理的功能，框架只会将分片项分配至各个运行中的作业服务器，开发者需要自行处理分片项与真实数据的对应关系。

同时可个性化参数（shardingItemParameter），分片项匹配对应关系，用于将分片项的数字转换为更加可读的业务代码。

5.丰富的策略与扩展

提供了很多默认的策略机制，并且提供了SPI的扩展点，便于高级用户进行扩展。

缺点

由于框架比较大，而且接入zookeeper，相对而言比较复杂，需要理解，而且提供的配置项比较多，需要合理使用，正确使用。

比较分析

通过以上几个框架的描述来看，首先从社区活跃度来说，前四个已经有多年未更新，不再考虑范围内，然后从高可用、一致性、故障转移、任务分片、日志追溯、异常告警等来说，后面三种框架基本支持，由于Saturn是基于elasticjob进行二次开发，而且最近的更新时间在三个月，不做考虑，只在elastic-job和xxl-job之间进行考虑。

elastic-job和xxl-job

两个从功能来说基于相同，不同的是中心化和分布式，xxl-job目前也在往分布式发展，从性能来说，达到一定的两级来说，分布式的优势会更大，但是目前公司的流量来说，两者都已经满足，此处没有进行性能分析，从github上作者的回复来看，xxl-job支持5000个并发，已经足够满足业务需求。

从社区来说，xxl-job是个人维护的项目，虽然大众点评已经对其二次开发Ferrari，但是xxl-job基本属于个人维护，而elastic-job属于apache shardingsphere子项目，属于apache旗下，未来肯定会有更多的人参与进开发，社区活跃度优于xxl-job

从框架技术来说，elastic-job引入了很多中间件和技术，相对于xxl-job来说，对于初级业务开发人员来说，理解上会相对难一点。

从文档丰富程度来说，elastic-job只提供了部分比较关键的技术点，对于很多细节需要从源码着手，xxl-job提供了完备的技术文档，而且架构相对简单，便于入手。

综上考虑，为了后续业务发展万一达到一定量级，xxl-job难以支持或者错误率过高的情况下，而且elasticjob足够活跃的社区，同时，对于初级业务开发而言，不需要完全理解，所以，目前选择elasticjob来作为未来java定时任务框架