Depois de criar seus SLIs, você poderá usá-los para melhorar regularmente seu sistema de muitas maneiras diferentes. Abaixo, você verá como usar seus SLIs em diversas áreas da plataforma New Relic.
Rastreando seus objetivos de nível de serviço
Você deve tratar o nível de serviço como uma prática recorrente, assim como testes, alertas, dias de jogos e outros. Você poderia pensar neles como uma ferramenta usada para medir a “saúde” de seus sistemas. Mas como todas as ferramentas, o nível de serviço requer calibração.
Inclua a prática do nível de serviço no processo da sua equipe. Recomendamos o seguinte com base em nossa experiência no uso do nível de serviço, e você deve ajustá-los às necessidades específicas de sua equipe:
Faça uma revisão periódica do nível de serviço e preste muita atenção a:
Os SLIs refletem incidentes e páginas?
Qual é o seu orçamento de erro para uma semana?
- Se estiver muito baixo, investigue o que causou a queda, usando o recurso "Analisar" para encontrar o evento ruim que a causou,
- Se estiver 100%, certifique-se de que seu indicador esteja correto e que o SLO seja agressivo o suficiente. Estar em 100% indica que o SLO é muito seguro.
- Qual é a tendência que você observa em vários períodos de tempo (1d/7d/28d).
Fique de olho nos SLIs durante os dias de jogo. Os SLIs devem refletir o impacto, assim como o seu alerta.
Quando você tiver uma queda no orçamento de erros na produção, avalie por que isso não aconteceu na preparação.
Valor do negócio
Em última análise, o gerenciamento a nível de serviço concentra-se na redução do custo dos incidentes que impactam os negócios. No entanto, o nível de serviço também ajuda a quantificar a perda estimada de receita durante o incidente, bem como a receita estimada em risco para negócios baseados em assinatura.
Por exemplo, você pode estimar a perda de receitas geradas por transações, como varejo on-line, bem como multas pagas se sua empresa tiver contratos de acordo de nível de serviço com penalidades integradas.
A receita em risco é para modelos de negócios baseados em assinatura (SaaS), onde cada cliente tem um valor de assinatura mensal ou anual. Você pode estimar facilmente o número de clientes impactados e sua receita de assinatura por período para calcular a “receita em risco”.
Dica
As empresas de assinatura também podem ter penalidades em um contrato de acordo de nível de serviço, que deve ser incluído conforme indicado abaixo.
Automação
Depois de estabelecer o que funciona e o que não funciona para as partes interessadas, você pode começar a dimensionar o SLM com automação. Você pode começar a aprender sobre como automatizar o gerenciamento a nível de serviço estudando a biblioteca New Relic Terraform.
Gerenciamento de qualidade de alerta
O alerta de gestão da qualidade é outra prática de maturidade de observabilidade que atende ao gerenciamento a nível de serviço. O valor dos dados de qualidade de alerta combinados com os dados de nível de serviço vem de ver se sua política de alertas está alinhada com o impacto real ou apenas criando ruído. Você poderá validar alertas bons, alertas ausentes e apenas alertas barulhentos.
Você pode fazer isso criando um painel personalizado com uma consulta de conformidade SLI lado a lado com uma consulta de qualidade de alerta. Basta verificar nosso documento de gerenciamento de qualidade de alerta para obter mais detalhes.
Quantificando o custo direto das violações do acordo de nível de serviço
Determine o custo de violações anteriores. Por exemplo, as empresas de retalho online conhecem a perda estimada de receitas por minuto durante a perda de serviço (período de inatividade). O departamento jurídico pode informar os custos de penalidade por violações de contrato de acordo de nível de serviço (SLA). Ambas as perdas podem ser facilmente estimadas em tempo real usando dados da New Relic sobre violações de nível de serviço.
Quantificando os custos de oportunidade de receita de violações de nível de serviço
Determine as três variáveis abaixo.
- (A) número de violações que geram penalidades ou perda de receita
- (B) duração média das violações
- (C) penalidade média ou perda de receita por minuto/hora
Multiplique essas três variáveis (A _B _C) para calcular a oportunidade total de recuperação de receita.
Quantificando o vazamento de receita
Determine as duas variáveis abaixo.
- (A) Receita total (por período)
- (B) Total de pagamentos de multas feitos a clientes (no mesmo período de A)
Divida B / A para calcular a taxa percentual de perda de receita.
Qual é o próximo?
Se você quiser se aprofundar ainda mais no gerenciamento a nível de serviço, recomendamos nosso curso online interativo gratuito sobre nível de serviço.