描述:
客户端程序报错:PHP Fatal error: Uncaught exception 'Exception' with message 'Connect failed: Can't connect to MySQL server on '172.16.1.134' (99)' in
排查:
服务端:
1.检查配置文件:/etc/my.cnf | grep connection 发现max_connection为300,当前与mysql实例最大的建立连接为300
2.检查配置文件:/etc/my.cnf | grep timeout 发现connection_timeout为8,当前mysql等待握手结果的时间为8s,如果长于8s,建立请求就会失败。
3.查看mysql的error_log:/data/local/mysql/var/mysql.err 没有任何相关信息
4.看RDS所在VM连接状态:netstat -anp|grep 3306 ,有大量连接处于time_wait,也就是说,根据TCP协议,服务器端主动关闭连接的一方,会处于time_wait。服务端对资源进行回收,而client没有连接回收机制(客户端不在向服务端传输数据,超过一定时间后,就会由服务端发起连接结束)
客户端:
1.应用错误日志:应用错误日志:less error.log
[31-Jul-2017 13:36:50 Etc/GMT-8] PHP Fatal error: Uncaught exception 'Exception' with message 'Connect failed: Can't connect to MySQL server on '172.16.1.134' (99)' in /data/apps/shangzuo/www/include/library/DB.class.php:47
Stack trace:
#0 /data/apps/shangzuo/www/include/library/DB.class.php(23): DB->__construct()
#1 /data/apps/shangzuo/www/include/library/DB.class.php(82): DB::Instance()
#2 /data/apps/shangzuo/www/include/library/DB.class.php(471): DB::EscapeString('df1060b5d6aabaf...')
#3 /data/apps/shangzuo/www/include/library/DB.class.php(151): DB::BuildCondition(Array)
#4 /data/apps/shangzuo/www/include/library/Table.class.php(200): DB::LimitQuery('t_weixin_login_...', Array)
#5 /data/apps/shangzuo/www/boss/logincheck.php(10): Table::Fetch('t_weixin_login_...', 'df1060b5d6aabaf...', 'lgch_uid')
#6 {main}
thrown in /data/apps/shangzuo/www/include/library/DB.class.php on line 47
2.login逻辑检查: less logincheck.php没有连接回收
if ($check["lgch_returnuid"]) {
if($INI['system']['brandkey'] == 'www'){
$res=array("tag" => "combine","mbuid"=>$check['lgch_returnuid']);
}
$login_waiter = checklogin($check['lgch_returnuid']);
if($login_waiter["tag"] != 'fail'){
$waiter = DB::LimitQuery("t_shop_waiter_info ta inner join t_sys_group_list tb on ta.wait_uid=tb.gpls_tguid inner join t_shop_job_info tc on tb.gpls_gpuid=tc.sjob_gpuid", array(
"condition" => "wait_uid='".$login_waiter["waiter"]['wait_uid']."' and sjob_class=1",
"order" => "order by sjob_type desc",
"one" => true
));
....
}
$res = array("tag"=>'brandchoose','htmlstr'=>$str);
}
}
}
结论
1.用户的php程序,和mysql后端的tcp连接,用户没有正常的释放,就会报“can't connect to mysql server onxxx.xxx”错误
2.由于客户端没有连接回收机制,只能借助于操作系统回收TCP连接,需要增加回收机制
处理结果:
1.客户端:
php与mysql建立完连接后,mysql.close()进行连接回收
2.服务端:
time_wait等待对端确认关闭连接,可在操作系统层面,优化tcp的time_wait,开启重启重用和回收(vim /etc/sysctl.conf 然后执行sysctl -p)
net.ipv4.tcp_syncookies = 1 //开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;
net.ipv4.tcp_tw_reuse = 1 //开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;
net.ipv4.tcp_tw_recycle = 1 //开启TCP连接中TIME-WAIT sockets的快速回收
net.ipv4.tcp_retries2 = 5 //已建立通讯状况﹐需要进行多少次重试。默认值为15,相当于13-30分钟,这个值根据目前的网络设置,适当改小。服务端主动关闭的等待时长
net.ipv4.tcp_fin_timeout = 10 //设置链接超时时间,默认时60s,降低Time_wait占用时长
net.ipv4.tcp_syn_retries = 1 //新建连接,内核要发送多少个 SYN 连接请求才决定放弃
3.Mysql配置
修改connection_timeout时长,将timeout增大,提升三次握手因网络原因导致的建立连接异常。
规避方法:
1.养成良好的编程习惯,建立连接使用完成后,要及时回收
2.服务端要开启自动回收机制,避免过多的time_wait连接