Quando você instala a integração Kubernetes pela primeira vez, implantamos um conjunto padrão de condições de alerta e painel recomendados em sua conta que formam a base para as condições de alerta e painel em seu cluster do Kubernetes. As políticas de alerta são agrupadas em algumas políticas: Kubernetes alert policy e Google Kubernetes Engine alert policy .
Embora tenhamos tentado abordar os casos de uso mais comuns em todos os ambientes, há uma série de alertas adicionais que você pode configurar para estender a política padrão. Consulte Introdução aos alertas do New Relic para saber mais sobre alertas.
Adicionando a condição recomendada do alerta e do painel Para adicionar políticas de alertas e painéis recomendados, siga estas etapas:
Vá para one.newrelic.com > Integrations & Agents .
Na caixa de pesquisa, digite kubernetes
.
Selecione uma destas opções:
Kubernetes : Para adicionar o conjunto padrão de recomendações de alerta e um dashboard.
Google Kubernetes Engine : Para adicionar o conjunto padrão de mecanismos recomendados do Google Kubernetes , faça o alerta e um dashboard.
Clique em Begin installation se precisar instalar a integração do Kubernetes ou clique em Skip this step se já tiver configurado essa integração.
Dependendo da opção selecionada na etapa 3, você verá diferentes recursos para adicionar.
Conjunto padrão de alertas recomendados e um dashboard quando você seleciona Kubernetes na etapa 3.
Conjunto padrão de mecanismo recomendado do Google Kubernetes condição do alerta e um dashboard quando você seleciona Google Kubernetes Engine na etapa 3.
Clique em See your data para ver um dashboard com seus dados Kubernetes no New Relic. Como ver a política de alertas recomendada Para visualizar as políticas de alertas recomendadas que você adicionou, faça isto:
Vá para one.newrelic.com > All capabilities > Alerts .
Clique em Alert Policies no painel de navegação esquerdo.
Você verá Kubernetes alert policy e Google Kubernetes engine alert policy .
Como ver o painel Kubernetes Há uma coleção de painéis pré-criados recomendados para ajudar você a visualizar instantaneamente seus dados Kubernetes para casos de uso comuns. Consulte Gerenciar seu painel recomendado para saber como visualizar esses painéis.
Política de alertas Kubernetes Este é o conjunto padrão de condições do alerta recomendadas que você adicionará:
Painel Kubernetes (dashboard) Este dashboard inclui gráficos e visualizações que ajudam você a visualizar instantaneamente seus dados Kubernetes para casos de uso comuns.
O afogamento da CPU do contêiner é alto (condição do alerta) Esta condição do alerta gera um alerta quando um contêiner é limitado em mais de 25% por mais de 5 minutos. Ele executa esta consulta:
SELECT sum ( containerCpuCfsThrottledPeriodsDelta ) / sum ( containerCpuCfsPeriodsDelta ) * 100
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET containerName , podName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Alta utilização de CPU do contêiner (condição de alerta) Esta condição do alerta gera um alerta quando o uso médio da CPU do contêiner em relação ao limite excede 90% por mais de 5 minutos. Ele executa esta consulta:
SELECT average ( cpuCoresUtilization )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET containerName , podName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Contêiner com alta utilização de memória (condição de alerta) Esta condição do alerta gera um alerta quando a utilização média de memória em relação ao limite ultrapassa 90% por mais de 5 minutos. Ele executa esta consulta:
SELECT average ( memoryWorkingSetUtilization )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET containerName , podName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Contêiner está reiniciando (condição de alerta) Esta condição do alerta gera um alerta quando as reinicializações do contêiner ultrapassam 0 em uma janela deslizante de 5 minutos. Ele executa esta consulta:
SELECT sum ( restartCountDelta )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET containerName , podName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Contêiner está aguardando (condição de alerta) Esta condição do alerta gera um alerta quando um contêiner aguarda mais de 5 minutos. Ele executa esta consulta:
SELECT uniqueCount ( podName )
WHERE status = 'Waiting' AND clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET containerName , podName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Daemonset está faltando pod (condição de alerta) Esta instrução do alerta gera um alerta quando o daemonset fica sem algum pod por um período maior que 5 minutos. Ele executa esta consulta:
SELECT latest ( podsMissing )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET daemonsetName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Falta pod de implantação (condição de alerta) Esta condição do alerta gera um alerta quando a implantação estiver faltando algum pod por um período superior a 5 minutos. Ele executa esta consulta:
SELECT latest ( podsMissing )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET deploymentName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Etcd
a utilização do descritor de arquivo é alta (condição do alerta)Esta condição do alerta gera um alerta quando o uso do descritor de arquivo Etcd
excede 90% por mais de 5 minutos. Ele executa esta consulta:
SELECT max ( processFdsUtilization )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
FACET displayName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Etcd
não tem líder (condição do alerta)Esta condição do alerta gera um alerta quando o descritor de arquivo Etcd
fica sem líder por mais de 1 minuto. Ele executa esta consulta:
SELECT min ( etcdServerHasLeader )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
FACET displayName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Réplicas atuais do HPA < réplicas desejadas (condição do alerta) Esta condição do alerta gera um alerta quando as réplicas atuais de um pod autoscaler horizontal são menores que as réplicas desejadas por mais de 5 minutos. Ele executa esta consulta:
SELECT latest ( desiredReplicas - currentReplicas )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET displayName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
HPA atingiu o máximo de réplicas (condição do alerta) Esta condição do alerta gera um alerta quando um escalonador automático pod horizontal excede 5 réplicas. Ele executa esta consulta:
SELECT latest ( maxReplicas - currentReplicas )
WHERE clusterName in ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET displayName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Falha no trabalho (condição de alerta) Esta condição do alerta gera um alerta quando um trabalho relata um status de falha. Ele executa esta consulta:
SELECT uniqueCount ( jobName )
WHERE failed = 'true' and clusterName in ( 'YOUR_CLUSTER_NAME' ) and namespaceName in ( 'YOUR_NAMESPACE_NAME' ) facet jobName , namespaceName , clusterName , failedPodsReason
Veja o arquivo de configuração do GitHub para mais informações.
Mais de 5 pods falhando no namespace (condição de alerta) Esta condição do alerta gera um alerta quando mais de 5 pods em um namespace falham por mais de 5 minutos. Ele executa esta consulta:
SELECT uniqueCount ( podName )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
A utilização da CPU alocável do nó é alta (condição do alerta) Este alerta gera um alerta quando a utilização média da CPU alocável do nó excede 90% por mais de 5 minutos. Ele executa esta consulta:
SELECT average ( allocatableCpuCoresUtilization )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
FACET nodeName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
A utilização da memória alocável do nó é alta (condição do alerta) Este alerta gera um alerta quando a utilização média de memória alocável do nó excede 90% por mais de 5 minutos. Ele executa esta consulta:
SELECT average ( allocatableMemoryUtilization )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
FACET nodeName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
O nó não está pronto (condição do alerta) Esta condição do alerta gera um alerta quando um nó fica indisponível por 5 minutos. Ele executa esta consulta:
SELECT latest ( condition . Ready )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
FACET nodeName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
O nó não pode ser programado (condição do alerta) Esta condição do alerta gera um alerta quando um nó é marcado como não agendado. Ele executa esta consulta:
SELECT latest ( unschedulable )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
FACET nodeName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Contagem pod de nós próxima da capacidade máxima (condição de alerta) Esta condição do alerta gera um alerta quando o pod em execução de um nó excede 90% da capacidade do pod do nó por mais de 5 minutos. Ele executa esta consulta:
FROM K8sPodSample , K8sNodeSample
) / latest ( capacityPods ) * 100
WHERE nodeName != '' AND nodeName IS NOT NULL
AND clusterName IN ( 'YOUR_CLUSTER_NAME' )
FACET nodeName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
A utilização da capacidade do sistema de arquivos raiz do nó é alta (condição do alerta) Esta instrução do alerta gera um alerta quando a utilização média da capacidade do sistema de arquivos raiz do nó excede 90% por mais de 5 minutos. Ele executa esta consulta:
SELECT average ( fsCapacityUtilization )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
FACET nodeName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
O volume persistente contém erros (condição do alerta) Esta condição do alerta gera um alerta quando o volume persistente fica em estado de falha ou pendente por mais de 5 minutos. Ele executa esta consulta:
FROM K8sPersistentVolumeSample
SELECT uniqueCount ( volumeName )
WHERE statusPhase IN ( 'Failed' , 'Pending' )
AND clusterName IN ( 'YOUR_CLUSTER_NAME' )
FACET volumeName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Pod não pode ser agendado (condição de alerta) Esta condição do alerta gera um alerta quando um pod não pode ser agendado por mais de 5 minutos. Ele executa esta consulta:
SELECT latest ( isScheduled )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET podName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Pod não está pronto (condição de alerta) Esta condição do alerta gera um alerta quando um pod fica indisponível por mais de 5 minutos. Ele executa esta consulta:
WHERE status NOT IN ( 'Failed' , 'Succeeded' )
AND clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET podName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
statefulset
está faltando pod (condição de alerta)Esta condição do alerta gera um alerta quando statefulset
está ausente do pod por mais de 5 minutos. Ele executa esta consulta:
FROM K8sStatefulsetSample
SELECT latest ( podsMissing )
WHERE clusterName IN ( 'YOUR_CLUSTER_NAME' )
AND namespaceName IN ( 'YOUR_NAMESPACE_NAME' )
FACET daemonsetName , namespaceName , clusterName
Veja o arquivo de configuração do GitHub para mais informações.
Política de alertas do mecanismo Google Kubernetes Este é o conjunto padrão de mecanismos de alerta do Google Kubernetes recomendados que você adicionará:
Google Kubernetes Engine (dashboard) Este dashboard inclui gráficos e visualizações que ajudam você a visualizar instantaneamente seus dados do Google Kubernetes para casos de uso comuns.
Alta utilização da CPU (condição do alerta) Este alerta gera um alerta quando a utilização da CPU de um nó excede 90% por pelo menos 15 minutos. Ele executa esta consulta:
SELECT max ( ` gcp.kubernetes.node.cpu.allocatable_utilization ` ) * 100
WHERE clusterName LIKE '%' FACET gcp . kubernetes . nodeName
Veja o arquivo de configuração do GitHub para mais informações.
Alto uso de memória (condição de alerta) Esta condição do alerta gera um alerta quando o uso de memória de um nó excede 85% de sua capacidade total. Ele executa esta consulta:
SELECT max ( gcp . kubernetes . node . memory . allocatable_utilization ) * 100
WHERE clusterName LIKE '%' FACET gcp . kubernetes . nodeName
Veja o arquivo de configuração do GitHub para mais informações.