Quando o seu sistema está totalmente instrumentado, você pode correlacionar dados entre a infraestrutura do seu sistema e os aplicativos que sua infraestrutura suporta. É provável, porém, que você tenha milhares de hosts sem rosto alocando recursos para vários aplicativos. Você pode não ter o contexto completo do que está acontecendo e onde, o que torna difícil encontrar dados relevantes. Como você classifica todos os seus dados para encontrar causas relacionadas à infraestrutura para aplicativos com falha?
Objetivos
Este documento orienta você na localização de dados relevantes na interface da infraestrutura. Você irá:
- Filtre os dados da sua infraestrutura por atributo
- Identifique hosts e aplicativos específicos sem contexto adicional
- Use o seletor de tempo para descobrir quando ocorreu uma alteração
Explore os dados do seu host para encontrar a causa de uma interrupção
Identifique hosts com falha
Se você não tiver certeza sobre como começar, recomendamos inicialmente definir o escopo de seus hosts por gravidade do alerta. Usando a visão geral da página de resumo, você pode ver que há três incidentes de alerta críticos acontecendo em seu sistema.
Você pode usar a barra de filtros para visualizar dados apenas sobre esses três alertas críticos. Nesse caso, sua consulta seria alertSeverity = 'CRITICAL'
, que abrange seus dados agregados de 83 hosts até três.
Se você ainda não configurou , você pode sempre ordenar a tabela de resumo por métrica de hosts. Por exemplo, digamos que você não tem nenhuma indicação de que os hosts estão falhando, mas ainda assim foi notificado sobre um problema.
- Clique na coluna de nome na tabela de resumo. Você pode classificar por ordem crescente ou decrescente.
- Na captura de tela, classificamos os hosts por uso de CPU, colocando
host-tower-portland
no topo com 99,84% de CPU. - Repita o mesmo processo para uso de memória, uso de armazenamento e assim por diante, se necessário. Repita até encontrar um padrão de comportamento anômalo.
- Quando tiver tempo, considere criar um alerta para qualquer limite crítico.
Filtrar por nome do aplicativo
Depois de identificar um host relacionado ao incidente, você poderá clicar para visualizar dados apenas sobre esse host. Neste cenário, escolhemos apache-svr01
. Como estamos tentando resolver um problema relacionado ao aplicativo, começamos no mapa de serviço na página do host. Este mapa mostra quais aplicativos dependem do host escolhido.
Retorne à página de resumo da infraestrutura para atualizar sua consulta. Queremos avaliar todos os hosts relacionados a este aplicativo, mesmo que ainda não estejam alertando. Ver o anfitrião do problema no contexto do seu conjunto de parceiros melhora a sua compreensão do que está a causar a falha da aplicação. Por exemplo, talvez os outros hosts estejam se aproximando de um limite ou talvez você não tenha criado um alerta para esses outros hosts.
Ajuste a barra de filtro para mostrar todos os hosts relacionados ao aplicativo Orders team
. Sua consulta agora deve ser apmApplicationNames = Orders team
.
Esse filtro ampliou o raio do incidente além do host apache_svr01
inicial, mas ainda manteve o escopo dos dados em um conjunto relevante. A partir daqui, você pode começar a se aprofundar em quais limitações de recursos estão afetando o desempenho.
- Como apenas alguns desses hosts estão alertando, você pode descartar um possível problema no banco de dados, que afetaria todos os hosts.
- Em vez disso, você pode optar por se aprofundar nas guias Sistema, Rede, Processos, Armazenamento ou Docker contêiner. O próximo documento desta série aborda como comparar e correlacionar o comportamento dos dados.
Ajuste o seletor de hora para saber quando ocorreu uma alteração pela primeira vez
Ajustar o seletor de hora permite visualizar como seus dados mudaram ao longo do tempo. Esta ação permite rastrear quando uma alteração ocorreu pela primeira vez. Vejamos esses gráficos métricos alternados entre 3 horas atrás e 6 horas atrás.
Sua série temporal de 6 horas não exibe um aumento óbvio na utilização do disco. Alternado para um parâmetro de 3 horas, você pode ver aproximadamente quando o comportamento começou a mudar. Seus gráficos métricos fornecem uma pista visual quando ocorre um aumento ou queda.
Se houver um aumento inesperado na carga, o bloco
Events
exibirá muitos ou poucos eventos esperados.
O bloco
Alerts
exibe o número de hosts que estão alertando atualmente com limite crítico ou de aviso. Um aumento constante no alerta ao longo do tempo pode indicar quando uma mudança aumentou o comportamento do incidente.
Os blocos e gráficos métricos podem ajudá-lo a triangular o tempo aproximado de um incidente. Isso é especialmente útil se a causa de um incidente for devido a uma atualização de um fornecedor externo ou a uma implantação de outra equipe. Se for esse o caso, seu próximo passo para ir mais fundo mudaria.
Qual é o próximo?
Apresentamos como localizar aplicativos com falha avaliando os dados da sua infraestrutura. Começando com a página de resumo, você pode ter uma visão geral do desempenho de seus hosts ao longo do tempo e identificar quais hosts oferecem suporte a aplicativos com falha.
Mas como você usa os dados da sua infraestrutura para tomar uma decisão sobre a alocação de recursos? O próximo documento aborda como você pode se aprofundar em um incidente mais específico, como resolução de problemas de alta CPU.