云计算之路-阿里云上-寒流来袭:2014年12月23日21:45-23:15网站故障

技术分享

1个多小时间的网站故障给大家带来很大的麻烦,在这里我们表示深深的歉意!希望大家能够谅解!

这两天上海的气温在回升,而杭州的云上却突然袭来一股寒流。

12月23日晚上,阿里云进行了一次RDS的发布,在这次发布中自动地修改了我们的数据库连接数限制,谁也不知道,然后。。。

21:45:52左右开始,日志中出现大量执行时间超过5秒的请求。

然后出现超过10秒、20秒。。。甚至超过100秒的请求。

21:46:50左右,开始出现数据库连接错误:

System.Data.SqlClient.SqlException (0x80131904): Timeout 时间已到。
在操作完成之前超时时间已过或服务器未响应。
尝试连接到 Principle 服务器时发生了此故障。
---> System.ComponentModel.Win32Exception (0x80004005): 等待的操作过时。

并继续出现大量执行时间超过5秒的请求。

接着出现下面的错误:

System.InvalidOperationException: 超时时间已到。
超时时间已到,但是尚未从池中获取连接。
出现这种情况可能是因为所有池连接均在使用,并且达到了最大池大小。

再接着就是下面的错误:

System.Web.HttpUnhandledException (0x80004005): 引发类型为“System.Web.HttpUnhandledException”的异常。 
---> System.Data.SqlClient.SqlException (0x80131904): 已成功与服务器建立连接,但是在登录前的握手期间发生错误。
(provider: SSL Provider, error: 0 - 等待的操作过时。)

然后网站就无法正常访问。

技术分享

(上图中紫色的线条表示的是请求执行时间)

当我们发现问题后,立即向阿里云反馈,然后与阿里云工作人员一起排查问题。但是我们不知道这次RDS发布,阿里云参加排查问题的人也不知道。于是,紧张地做了1小时左右的无用功,直到知道了故障的真相。。。

我们不要这样的“被故障”,我们要的是无故障,希望2015年全年无故障!

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。