Depois de criar seu conjunto de SLIs e SLOs, o New Relic começará a gerar dados de SLI. Os primeiros resultados levarão alguns minutos para aparecer em nossa interface.
Encontre e visualize o nível de serviço
Você tem várias maneiras de encontrar o nível de serviço:
Na barra de navegação superior, em
Service Levels
no menu
More
(que você pode personalizar). Aqui você pode filtrar os SLIs por tag.
Nas prévias daquelas entidades que possuem SLI definido. Você pode encontrá-los em toda a interface. Por exemplo, clique em uma entidade na visualização Navegador do Explorer.
Em
APM
serviços, na seção de relatórios.
Em qualquer
workload
que contenha o SLI ou a entidade relacionada ao SLI, como um serviço
ou aplicativo de browser. Se desejar agrupar SLIs em uma determinada workload, adicione o serviço APM ou o aplicativo de browser a uma workload existente ou crie uma nova.
A lista de níveis de serviço mostra um nível de serviço por linha, com o nome do nível de serviço, sua entidade relacionada e o destino e período do SLO.
Filtrar nível de serviço
Se você adicionar uma tag ao seu nível de serviço, use a barra de filtro para definir o nível de serviço obtido e agrupe-os.
- Use a filtragem para ocultar qualquer teste ou nível de serviço aspiracional com o qual a equipe ainda não se comprometeu.
- Use o agrupamento para focar naqueles níveis de serviço vinculados a um proprietário, unidade organizacional ou fluxo de usuário específico.
Modos de visualização de conformidade com SLO
Dependendo do que você está tentando alcançar, use um dos seguintes modos de visualização para verificar a conformidade com o SLO:
: quando estiver encarregado de operar um serviço, use esta visualização para ver a tendência da conformidade do SLO e do orçamento de erros nas últimas 2 horas e nas janelas contínuas de 1, 7 e 28 dias.
: para análises de negócios, retrospectivas e reuniões de priorização, use esta visualização para comparar a conformidade por semana ou mês.
Observe que os SLOs baseados em solicitações são determinados a partir de SLIs definidos como a proporção entre o número de boas respostas e o número total de solicitações. Isso significa que um SLO baseado em solicitação será atendido quando essa proporção atingir ou exceder a meta do período de conformidade do SLO.
Além disso, os resultados de conformidade do SLO para janelas de tempo contínuo são mais consistentes quando incluem semanas completas. Portanto, os períodos de SLO incluem apenas semanas completas. Dessa forma, o cálculo sempre inclui a mesma quantidade de finais de semana, e qualquer sazonalidade semanal não impacta os resultados dependendo do dia da semana em que você olha os SLOs.
Ver SLOs para operações
A visão operacional mostra como seu nível de serviço está melhorando ou piorando em diferentes janelas de tempo.
one.newrelic.com > All capabilities > Service levels
- Se a célula de conformidade do SLO tiver um fundo verde, você está indo bem no período. Talvez você não tenha atendido 100% das solicitações com sucesso, mas ainda tem algum orçamento de erro restante para consumir.
- Se a célula de conformidade do SLO tiver um fundo amarelo, seu orçamento de erros estará mais próximo de ser totalmente consumido e você deverá ser mais cauteloso durante o restante do período.
- Se a célula de conformidade do SLO tiver um fundo vermelho, você não atingiu o SLO de destino nesse período e consumiu todo o seu orçamento de erro. Tenha cuidado se precisar implantar e planeje algum trabalho para melhorar seus SLIs. Você pode clicar no SLO para ver mais dados sobre a entidade, como as métricas clássicas, a última implantação, anomalia e questões em andamento. Esses dados podem ajudar você a entender quando e por que você perdeu o destino do SLO.
A janela de 2 horas pode revelar incidentes que impactam rápida e significativamente seus clientes. Se este SLO não for atendido, inicie uma investigação e certifique-se de que seu serviço não continue a degradar-se. Por outro lado, janelas de tempo mais longas podem revelar problemas que não são suficientemente graves para violar a condição de alerta e, de outra forma, poderiam passar despercebidos.
Você também receberá o orçamento de erros restante dos últimos 1, 7 e 28 dias consecutivos para verificar a rapidez com que está recuperando ou consumindo o orçamento de erros.
Visualize SLOs ao longo dos períodos para análises de negócios
Use a visualização período a período para gerar relatórios em reuniões de revisão que acontecem com uma determinada frequência no calendário. O valor agregado dessa visualização é mostrar um histórico mais longo da conformidade do seu SLO ao longo de janelas de tempo em um determinado período do calendário.
one.newrelic.com > All capabilities > Service levels
- Você pode alternar o período entre semanas e meses.
- A cor da célula funciona exatamente como descrito na visualização de operações.
Entenda os detalhes do nível de serviço
Clique em qualquer SLI para abrir os detalhes do SLI:
one.newrelic.com > All capabilities > Service levelse selecione um SLI.
Use os detalhes do SLI para duas finalidades principais:
- Para análise de SLO: Veja em quais intervalos de tempo o destino do SLO foi perdido.
- Para configuração e ajuste fino de SLI/SLO: Saiba como a New Relic calculou os valores de SLO.
A placa SLI contém os seguintes gráficos:
Respostas boas e ruins
Estes são os conceitos-chave para analisar o nível de serviço:
- Uma solicitação válida é qualquer solicitação que você queira considerar significativa para seus SLIs.
- Uma boa resposta é qualquer resposta que você considere proporcionar uma boa experiência (por exemplo, o serviço respondeu em menos de 2 segundos, proporcionando uma boa experiência de navegação para o usuário final).
- Uma resposta ruim é qualquer resposta que você considera fornecer uma experiência ruim (como o serviço respondeu com um erro no servidor, interrompendo o fluxo do usuário).
Este gráfico mostra o número total de solicitações válidas que seu serviço recebeu, divididas por boas ou ruins.
Este gráfico mostra as taxas de transferência reais do seu serviço, que você pode usar para ver se há alguma correlação entre o aumento das taxas de transferência e respostas ruins.
Alcance do SLI ao longo do tempo (%)
É a proporção do que você considera boas respostas ao longo do tempo. A linha deve ficar próxima de 100%, o que significa que a maioria das solicitações foi atendida com sucesso.
Conformidade ao longo do período
É a proporção entre eventos bons (respostas) e eventos totais (solicitações), medido durante o período de conformidade do SLO. Quanto mais próximo de 100%, mais próximo o seu serviço estará de atender ao destino do SLO durante o período. Quando essa porcentagem ficar abaixo do destino do SLO, o gráfico ficará vermelho: Você precisa se esforçar mais na confiabilidade.
Orçamento de erro restante (solicitações)
O orçamento de erro restante indica qual a percentagem de pedidos que ainda poderá ter uma resposta negativa durante o período do SLO sem comprometer o objetivo. Portanto, a quantidade total de más respostas toleradas variará de acordo com as taxas de transferência dos pedidos.
O orçamento de erros é uma forma alternativa de ler o SLO. Indica qual porcentagem de solicitações ainda pode ter uma resposta ruim durante o período do SLO, sem comprometer o objetivo.
Como a quantidade total de respostas incorretas toleradas variará de acordo com as taxas de transferência solicitadas, a New Relic mostra a porcentagem de erro orçamentário restante:
- Contanto que o orçamento de erro restante esteja acima de 25%, você verá verde e seu SLO será bom.
- Quando o erro orçamentário for inferior a 25%, ele ficará amarelo. Isso significa que você está perto de queimar todo o orçamento do período. Você pode querer ter mais cuidado com novas implantações e mudanças, e planejar algum trabalho de confiabilidade.
- Assim que o orçamento de erro for totalmente gasto, ele aparecerá em vermelho.
Alcance do SLI ao longo do tempo e destino do SLO (%)
O último gráfico mostra duas séries temporais: o (atingimento do SLI ao longo do tempo)[#sli-over-time] e o destino do SLO. Quando o valor do SLI está abaixo do destino do SLO, seu serviço não possui o SLO. Use este gráfico para saber em quais intervalos de tempo seu serviço perdeu o destino do SLO.
Traçando a obtenção do SLI em um dashboard
Você pode traçar séries temporais de obtenção de SLI em seu painel personalizado usando a seguinte consulta:
FROM Metric SELECT clamp_max((count(newrelic.sli.valid) - count(newrelic.sli.bad)) / count(newrelic.sli.valid) * 100, 100) AS 'SLI attainment' WHERE sli.id = '<sli.id>' UNTIL 2 MINUTES AGO TIMESERIES AUTO
Onde sli.id
é o identificador SLI. A maneira mais fácil de adicionar um gráfico como este ao seu dashboard é usando a opção Add to dashboard, disponível na visualização Details.
Como alternativa, você pode encontrar o ID do SLI e a consulta de obtenção do SLI por meio da API Nerdgraph com a seguinte consulta:
{ actor { entity(guid: "{entityGuid}") { serviceLevel { indicators { name id resultQueries { indicator { nrql } } } } } }}
Use o entityGuid
da entidade associada ao SLI. Nos resultados da consulta, você obterá o ID do SLI no campo serviceLevel.indicators.id
.
Diagnosticando violações de SLO
Para ajudá-lo a diagnosticar violações de SLO, você pode:
Agrupe seu evento ruim
one.newrelic.com > All capabilities > Service levelse selecione um SLI.
Você pode selecionar um determinado atributo (como conta, ID do cliente, origem da solicitação, etc.) e detectar se ele prejudica particularmente o SLO. Chamaremos esses valores prejudiciais de “detratores”.
Por exemplo, para dados de transação , tente facetar por name
para ver se alguma das transações do serviço está retornando mais resultados malsucedidos do que o restante. Para saber qual cliente está obtendo o maior número de resultados malsucedidos, tente facetar por request.uri
.
Outro exemplo, você pode tentar facetar o evento PageViewTiming
do browser, por deviceType
, userAgentName
, userAgentOS
, countryCode
, etc.
Ao detectar que um ou poucos detratores estão realmente degradando a conformidade com o SLO, você pode tomar várias ações:
- Primeiro, solucione o problema e planeje o trabalho para que o detrator atenda ao SLO.
- Você também pode ajustar temporariamente o destino do SLO para um valor mais realista e planejar o trabalho para melhorar a confiabilidade.
Mas se o detrator for realmente uma exceção que não corresponderá facilmente às expectativas gerais de desempenho e confiabilidade do seu serviço, considere ter um SLO dedicado para esse caso. Recomendamos estas etapas:
- Primeiro, use uma cláusula
WHERE
na consulta SLI original para filtrar o detrator (por exemplo,WHERE countryCode != 'US'
). - Em seguida, crie um novo SLI com uma cláusula
WHERE
na consulta que leve em consideração apenas o caso do detrator (por exemplo,WHERE countryCode = 'US'
) e defina um destino de SLO mais realista para ele.
Dica
Mesmo que você tenha configurado seu SLI com base em um evento bom, você pode usar a consulta de evento ruim para encontrar quaisquer detratores que possam existir.
Limitações
Existem algumas exceções em que você não pode calcular a consulta de evento incorreto:
- Para SLIs configurados em evento bom onde os tipos de evento são diferentes.
- Para SLIs configurados em evento bom onde o evento bom não possui filtro.
- Para SLIs configurados em eventos bons que usam SUM e COUNT.
- Para SLIs configurados em bom evento que utilizem SUM com atributo diferente.
Mapa de relacionamentos
Com o mapa de relacionamentos, você pode identificar quando e onde um problema começou, visualizando os relacionamentos em torno do seu nível de serviço afetado.
one.newrelic.com > All capabilities > Service levels > (select an SLI) > Map.