Diagnosticar falha do aplicativo com dados do host

Quando o seu sistema está totalmente instrumentado, você pode correlacionar dados entre a infraestrutura do seu sistema e os aplicativos que sua infraestrutura suporta. É provável, porém, que você tenha milhares de hosts sem rosto alocando recursos para vários aplicativos. Você pode não ter o contexto completo do que está acontecendo e onde, o que torna difícil encontrar dados relevantes. Como você classifica todos os seus dados para encontrar causas relacionadas à infraestrutura para aplicativos com falha?

Objetivos

Este documento orienta você na localização de dados relevantes na interface da infraestrutura. Você irá:

Filtre os dados da sua infraestrutura por atributo
Identifique hosts e aplicativos específicos sem contexto adicional
Use o seletor de tempo para descobrir quando ocorreu uma alteração

Explore os dados do seu host para encontrar a causa de uma interrupção

Identifique hosts com falha

Se você não tiver certeza sobre como começar, recomendamos inicialmente definir o escopo de seus hosts por gravidade do alerta. Usando a visão geral da página de resumo, você pode ver que há três incidentes de alerta críticos acontecendo em seu sistema.

Você pode usar a barra de filtros para visualizar dados apenas sobre esses três alertas críticos. Nesse caso, sua consulta seria alertSeverity = 'CRITICAL', que abrange seus dados agregados de 83 hosts até três.

A screenshot identifying the two areas in the UI that indicate alert severity. An arrow points to the Alerts tile and a second arrow points to the filter bar.

Se você ainda não configurou , você pode sempre ordenar a tabela de resumo por métrica de hosts. Por exemplo, digamos que você não tem nenhuma indicação de que os hosts estão falhando, mas ainda assim foi notificado sobre um problema.

A screenshot that shows the summary table sorted by descending CPU usage. An arrow points to the column title where you can toggle the sort action by ascending or descending.

Clique na coluna de nome na tabela de resumo. Você pode classificar por ordem crescente ou decrescente.
Na captura de tela, classificamos os hosts por uso de CPU, colocando host-tower-portland no topo com 99,84% de CPU.
Repita o mesmo processo para uso de memória, uso de armazenamento e assim por diante, se necessário. Repita até encontrar um padrão de comportamento anômalo.
Quando tiver tempo, considere criar um alerta para qualquer limite crítico.

Filtrar por nome do aplicativo

Depois de identificar um host relacionado ao incidente, você poderá clicar para visualizar dados apenas sobre esse host. Neste cenário, escolhemos apache-svr01. Como estamos tentando resolver um problema relacionado ao aplicativo, começamos no mapa de serviço na página do host. Este mapa mostra quais aplicativos dependem do host escolhido.

A screenshot displaying a summary page with data scoped to the individual host, named apache-svr01. An arrow points to the service map on the right side of the UI.

Na visualização com escopo apache-svr01 , podemos ver que dois aplicativos dependem desse host. Um está alertando.

A screenshot displaying a service map. This service map shows two apps. One app named 'Orders team' is alerting in the critical.

Nesse caso, o aplicativo Orders team é o aplicativo com falha.

Retorne à página de resumo da infraestrutura para atualizar sua consulta. Queremos avaliar todos os hosts relacionados a este aplicativo, mesmo que ainda não estejam alertando. Ver o anfitrião do problema no contexto do seu conjunto de parceiros melhora a sua compreensão do que está a causar a falha da aplicação. Por exemplo, talvez os outros hosts estejam se aproximando de um limite ou talvez você não tenha criado um alerta para esses outros hosts.

Ajuste a barra de filtro para mostrar todos os hosts relacionados ao aplicativo Orders team . Sua consulta agora deve ser apmApplicationNames = Orders team.

A screenshot with an updated view of the hosts page. Instead of showing a table of alerting hosts, it now displays host data that serves the app Orders team

Esse filtro ampliou o raio do incidente além do host apache_svr01 inicial, mas ainda manteve o escopo dos dados em um conjunto relevante. A partir daqui, você pode começar a se aprofundar em quais limitações de recursos estão afetando o desempenho.

Como apenas alguns desses hosts estão alertando, você pode descartar um possível problema no banco de dados, que afetaria todos os hosts.
Em vez disso, você pode optar por se aprofundar nas guias Sistema, Rede, Processos, Armazenamento ou Docker contêiner. O próximo documento desta série aborda como comparar e correlacionar o comportamento dos dados.

Ajuste o seletor de hora para saber quando ocorreu uma alteração pela primeira vez

Ajustar o seletor de hora permite visualizar como seus dados mudaram ao longo do tempo. Esta ação permite rastrear quando uma alteração ocorreu pela primeira vez. Vejamos esses gráficos métricos alternados entre 3 horas atrás e 6 horas atrás.

A screenshot displaying two metrics graphs and tiles from the past 6 hours.

Sua série temporal de 6 horas não exibe um aumento óbvio na utilização do disco. Alternado para um parâmetro de 3 horas, você pode ver aproximadamente quando o comportamento começou a mudar. Seus gráficos métricos fornecem uma pista visual quando ocorre um aumento ou queda.
Se houver um aumento inesperado na carga, o bloco
Events
exibirá muitos ou poucos eventos esperados.
O bloco
Alerts
exibe o número de hosts que estão alertando atualmente com limite crítico ou de aviso. Um aumento constante no alerta ao longo do tempo pode indicar quando uma mudança aumentou o comportamento do incidente.
Os blocos e gráficos métricos podem ajudá-lo a triangular o tempo aproximado de um incidente. Isso é especialmente útil se a causa de um incidente for devido a uma atualização de um fornecedor externo ou a uma implantação de outra equipe. Se for esse o caso, seu próximo passo para ir mais fundo mudaria.

Qual é o próximo?

Apresentamos como localizar aplicativos com falha avaliando os dados da sua infraestrutura. Começando com a página de resumo, você pode ter uma visão geral do desempenho de seus hosts ao longo do tempo e identificar quais hosts oferecem suporte a aplicativos com falha.

Mas como você usa os dados da sua infraestrutura para tomar uma decisão sobre a alocação de recursos? O próximo documento aborda como você pode se aprofundar em um incidente mais específico, como resolução de problemas de alta CPU.

Passo anterior

Instale o agente de infraestrutura.

Próxima Etapa

Tome decisões sobre recursos com seus dados

Esta tradução de máquina é fornecida para sua comodidade.