柳州网站建设 来宾市网站制作,中英文切换网站怎么做,网站建设管理职责,全网营销型网站建站专家SLA 即 Service Level Agreement#xff0c;也就是服务等级协议#xff0c;它指的是系统服务提供者#xff08;Provider#xff09;对客户#xff08;Customer#xff09;的一个服务承诺。
而 SLO 就是 SLA 的具体目标管理办法#xff0c;它由一系列相关的指标 SLI 也就是服务等级协议它指的是系统服务提供者Provider对客户Customer的一个服务承诺。
而 SLO 就是 SLA 的具体目标管理办法它由一系列相关的指标 SLI Service Level Indicator来进行衡量。SLI 和我们之前讨论的 Metric指标有所不同不是所有的 Metric 都是 SLISLI 应该更靠近使用产品和服务的最终用户用于衡量提供给最终用户的服务水平具体包括可用性、响应时间等等。
有了 SLI我们就可以检测在每个检测周期内各个 SLI 是否满足要求从而计算整体的 SLO 情况了。SLO 具体来说指的是在一个时间窗口内各项 SLI 预期的累计成功百分比。这个时间窗口可以根据业务的需要来定义一般来说为 30 天。
举个例子过去 30 天总计 43200 分钟如果发生异常的时间为 2 分钟则 SLO 的状态为 43200 - 2/ 43200 * 100% 99.995%。这里有一个对应的概念叫做错误预算Error Budget它指的是初始状态时 100% 可靠性和 SLO 目标之间的差额。
始终保持 100% 的可靠性是不可能的。SLO 可以帮助你在产品创新这将帮助你为最终用户提供更大价值但有一定破坏稳定性的风险和可靠性这将使最终用户在使用产品和服务的时候感到满意之间找到正确的平衡点。你的错误预算决定了在你的服务质量下降到真正影响最终用户正常使用之前开发工作能承受的不可靠性的程度。
随着你的基础架构越来越复杂为每个数据库、消息队列和负载均衡器设置外部 SLO 变得越来越麻烦。相反我建议你将你的系统组件组织成几个主要类别例如响应 / 请求、存储、数据管道并在每个类别中指定 SLI。在选取 SLI 的时候请记住“所有 SLI 都是指标但并非所有指标都是好的 SLI。” 这意味着虽然你可能要跟踪成百上千个指标但你应该关注最重要的指标最能捕捉用户体验的指标。
可以使用下指标作为参考。
响应或者请求类型的服务。 可用性服务成功响应的请求比例。延迟响应请求需要多长时间超过某个阈值的请求比例。吞吐量可以处理多少个请求。数据存储类型的服务。 可用性数据是否可以按需访问可以成功读取和写入的比例。延迟读取和写入需要多长时间超过某个阈值的比例。耐用性用户所需要的特定数据是否存在。数据管道Pipeline将输入的数据进行转换并进行输出例如从多种来源收集日志并生成报告。 正确性进入管道的产生正确的值的记录所占的比例。新鲜度新数据或处理结果需要多长时间出现。
无论一个指标对你的内部团队有多重要如果它的价值不直接影响用户满意度那么它作为 SLI 就没有用处反而可能带来告警的风暴淹没了更加重要的信息。 此文章为3月Day11 学习笔记内容来源于极客时间《深入浅出可观测性》推荐该课程。