Springcloud之Hystrix服务降级
服务雪崩
多个微服务之间调用时,如果链路上某个微服务A的调用响应时间过长或者不可用,调用方就会占用越来越多的系统资源,进而引起服务雪崩。
对高流量的应用,比失败更糟糕的是,应用程序还可能导致服务之间的延迟增加,备份队列,线程和其他资源紧张,导致整个系统发生更多的级联故障。因此,需要对故障和延迟进行隔离和管理,以便单个依赖关系失败,不会影响整个服务。
是什么
用于服务降级(fallback),服务熔断(break),服务限流(flowlimit),服务隔离,还有一个近实时的监控。
hystrix既可以隔离依赖服务的调用,还提供了准实时的调用监控(Hystrix Dashboard),Hystrix会持续地记录所有通过Hystrix发起的请求的执行信息,并图表展示,包括每秒执行了多少请求,多少成功,多少失败等。
服务降级
服务降级即兜底方法fallback,有以下几种途径会产生服务降级,即超时,异常,服务宕机,线程池或信号量打满等。
服务端配置
启动类增加@EnableCircuitBreaker
注解
@SpringBootApplication
@EnableEurekaClient
@EnableCircuitBreaker
public class CloudProviderHystrixPayment8001 {
public static void main(String[] args) {
SpringApplication.run(CloudProviderHystrixPayment8001.class, args);
}
}
通过@HystrixCommand
注解,指明fallbackMethod方法和超时时间限制。超过时间后,则调用fallbackMethod指定的方法,fallbackMethod必须与被注解的函数具有相同的函数签名。
@HystrixCommand(fallbackMethod = "paymentInfo_timeoutHandler", commandProperties = {
@HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "5000") })
public String paymentInfoTimeout(Integer id) {
log.info("{}", Thread.currentThread().getName()+" running ...");
Integer timeout = 3;
try {
TimeUnit.SECONDS.sleep(timeout);
} catch (InterruptedException e) {
// e.printStackTrace();
}
log.info("{}", " run over...");
return "线程池: " + Thread.currentThread().getName() + " paymentInfo_timeout, id:" + id;
}
public String paymentInfo_timeoutHandler(Integer id) {
log.info("hystrix超时处理...");
return "线程池: " + Thread.currentThread().getName() + " System busy, id:" + id;
}
客户端配置
客户端启动类配置@EnableHystrix
@SpringBootApplication
@EnableFeignClients
@EnableHystrix
public class CloudConsumerFeignHystrixOrder80 {
public static void main(String[] args) {
SpringApplication.run(CloudConsumerFeignHystrixOrder80.class, args);
}
}
配置文件开启hystrix支持
```feign:
client:
config:
default:
connect-timeout: 5000
read-timeout: 5000
logger-level: full
compression:
request:
enabled: false
response:
enabled: false
hystrix:
enabled: true
客户端配置,单独在函数上配置fallback,并指定超时时间
@RestController
@RequestMapping(value="/consumer")
@Slf4j
public class OrderFeignHystrixController {
@Autowired
private PaymentFeignHystrixService paymentFeignService;
@GetMapping("/payment/hystrix/ok/{id}")
public String paymentInfoOk(@PathVariable("id") Integer id) {
String result = paymentFeignService.paymentInfoOk(id);
log.info("******result:"+result);
return result;
}
@GetMapping("/payment/hystrix/timeout/{id}")
@HystrixCommand(fallbackMethod = "paymentTimeoutFallbackMethod", commandProperties = {
@HystrixProperty(name="execution.isolation.thread.timeoutInMilliseconds", value="1500")
})
public String paymentInfoTimeout(@PathVariable("id") Integer id) {
String result = paymentFeignService.paymentInfoTimeout(id);
log.info("*******result:"+result);
return result;
}
public String paymentTimeoutFallbackMethod(@PathVariable("id") Integer id) {
return "等不及了, 快上车";
}
}
客户端配置,全局fallback。通过@DefaultProperties
注解的defaultFallback
属性
@RestController
@RequestMapping(value="/consumer")
@Slf4j
@DefaultProperties(defaultFallback="payment_global_fallbackmethod")
public class OrderFeignHystrixController {
@Autowired
private PaymentFeignHystrixService paymentFeignService;
@GetMapping("/payment/hystrix/ok/{id}")
public String paymentInfoOk(@PathVariable("id") Integer id) {
String result = paymentFeignService.paymentInfoOk(id);
log.info("******result:"+result);
return result;
}
@GetMapping("/payment/hystrix/timeout/{id}")
@HystrixCommand
public String paymentInfoTimeout(@PathVariable("id") Integer id) {
String result = paymentFeignService.paymentInfoTimeout(id);
log.info("*******result:"+result);
return result;
}
public String payment_global_fallbackmethod() {
log.info("global fallback method...");
return "global异常处理信息,请稍后再试...";
}
}
上述方式还不够极简,比如fallback函数与函数耦合在一起,可以进一步解耦。通过实现@FeignClient
的接口,指明fallback类。其中每个函数对应的就是fallback函数。
@Service
public class PaymentFeginHystrixFallbackService implements PaymentFeignHystrixService {
@Override
public String paymentInfoOk(Integer id) {
return "fall back, ok...";
}
@Override
public String paymentInfoTimeout(Integer id) {
return "fall back, timeout...";
}
}
在@FeignClient
的接口上,指明fallback类。这样便可实现,fallback函数与函数的进一步解耦。
@Service
@FeignClient(value="cloud-payment-hystrix-service", fallback=PaymentFeginHystrixFallbackService.class)
public interface PaymentFeignHystrixService {
@GetMapping("/payment/hystrix/ok/{id}")
public String paymentInfoOk(@PathVariable("id") Integer id);
@GetMapping("/payment/hystrix/timeout/{id}")
public String paymentInfoTimeout(@PathVariable("id") Integer id);
}
服务熔断
类比保险丝,分为三个步骤:服务降级->进而熔断->恢复调用链路。
熔断机制是应对雪崩效应的一种微服务链路保护机制。当扇出链路的某个微服务出错不可用或者响应时间太长时,会进行服务的降级,进而熔断该节点微服务的调用,快速返回错误的响应信息。当检测到该节点微服务调用响应正常后,恢复调用链路。
SpringCloud中,熔断机制是通过Hystrix实现。Hystrix会监控微服务间的调用情况,当失败的调用到一定阈值,默认是5s内20次调用失败,就会启动熔断机制。熔断机制的注解是通过@HystrixCommand实现的。
熔断类型:
- 熔断打开:请求不在进行调用当前服务,内部设置时钟一般为MTTR(平均故障处理时间),当打开时长达到所设时钟则进入半熔断状态。
- 熔断关闭:正常情况。
- 熔断半开:部分请求根据规则调用当前服务,如果请求成功且符合规则则认为当前服务恢复正常,关闭熔断。
涉及断路器的三个重要参数:快照时间窗,请求总数阈值,错误百分比阈值。
- 快照时间窗:断路器确定是否打开需要统计一些请求和错误数据,统计的时间范围就是快照时间窗,默认是10s。
- 请求总数阈值:在快照时间窗内,必须满足请求总数阈值才有资格熔断。默认是20,意味着10s内,如果Hystrix命令的调用次数不足20次,即使所有的请求都超时或其他原因,断路器都不会打开。
- 错误百分比阈值:当请求总数在快照时间窗内超过了阈值,比如发生了30次调用,如果再30次调用中,有16次发送了超时异常,则超过了50%的错误百分比,在默认设定50%阈值的情况下,这时候会将断路器打开。
原来的主逻辑要如何恢复?
当开启的时候,所有请求都不会进行转发;一段时间之后(默认是5s),这个时候断路器是半开状态,会让其中一个请求进行转发,如果成功,断路器会关闭,若失败,继续开启。重复上述步骤。
以下配置,即为服务熔断
@HystrixCommand(fallbackMethod="paymentCircuitBreakerFallback", commandProperties = {
@HystrixProperty(name="circuitBreaker.enabled", value="true"),//是否开启断路器
@HystrixProperty(name="circuitBreaker.requestVolumeThreshold", value="10"),//请求次数
@HystrixProperty(name="circuitBreaker.sleepWindowInMilliseconds", value="10000"),//时间窗口期
@HystrixProperty(name="circuitBreaker.errorThresholdPercentage", value="60")//失败率达到多少后跳闸
})
public String paymentCircuitBreaker(@PathVariable("id") Integer id){
if(id<0) {
throw new RuntimeException("id不能为负数");
}
String serialNumber = IdUtil.simpleUUID();
return Thread.currentThread().getName()+"\t"+" ok, no: "+serialNumber;
}
public String paymentCircuitBreakerFallback(@PathVariable("id") Integer id) {
return "id 不能为负,请重试..., id: "+id;
}