程序可用率你真的了解么

发布时间：2021-03-09 14:45:18 所属栏目：外闻来源：互联网

导读：有两个重要的标准，一个是故障间隔时间，顾名思义，就是两次故障之间，相隔了多长的时间，很明显，故障间隔时间越长，说明系统越稳定。另一个是故障恢复时间，人非圣贤，孰能无过。故障总是会发生的，那么从故障开始，到发现问题，解决问题的时间，我们称之

有两个重要的标准，一个是故障间隔时间，顾名思义，就是两次故障之间，相隔了多长的时间，很明显，故障间隔时间越长，说明系统越稳定。另一个是故障恢复时间，人非圣贤，孰能无过。故障总是会发生的，那么从故障开始，到发现问题，解决问题的时间，我们称之为故障解决时间，很明显，故障解决时间越短，说明解决问题的速度越快，系统越稳定。

我们把故障间隔时间/(故障间隔时间+故障恢复时间)称之为系统的可用率，很显然，这是个小于等于100%的数。我们把系统可用率99%以上的称之为2个9，把系统可用率99.9%以上的称之为3个9，很显然，越接近1，说明可用性越高。但是每当我们把可用性提高1个9，有多难么?

的可用性为2个9的时候，我们的系统有3.65天是故障不可用的，这个看起来难度并不是很大，但是当我们把标准提高到4个9的时候，我们一年只有52分钟的时间允许故障，这是非常困难的，因为从故障的发生，到收到反馈，到定位，再修复，往往需要不少的时间。对于一个大公司来说，特别是一个有着千万甚至上亿月活的项目来说，故障的时间越长，影响的用户越多，那么就会造成越大的损失。

那么，为了提高系统的可用性，我们有哪些简单又行之有效的方法呢?

首先是规范好流程，代码的开发到发布上线，需要进行技术评审、代码审查、测试验证，不能够那么的随意，把线上环境当成测试环境使用。

其次是做好监控，自己发现用户而不是等用户发现问题，很多程序员，对处理异常、错误码非常地不屑，这是个非常不好的习惯，一般来说，好的代码，几乎60%都是用来处理异常跟边界情况地，如果不去做好这些，就很难从监控中去发现异常。

然后是，自动化的运维，人总是会犯错误的，并且还常犯，相信每个运维都重启错应用，或者部署错机器。而且人不可能24小时都盯着机器看，所以，我们需要自动化的运维，在某些机器故障的时候，快速进行响应。

最后则是定时的演练，在阿里巴巴，每年双十一前的3个月，都是进行压测跟演练，从而形成一套说明书，某某系统压力过高，降级停用了，其他系统该如何表现，让技术人员又心理准备，才能在故障真正发生地时候临危不乱。

好了，今天我们学习了高可用的系统标准还有一些方法论

（编辑：莆田站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

Meta继续重组结构人工	IonQ宣布新的钡量子位
生命、金钱、选票美式	美乌总统通电话讨论乌