Nossa integração NVIDIA DCGM auxilia você no monitoramento do status das GPUs. Essa integração aproveita nosso agente de infraestrutura e a integração de gravação remota do Prometheus, que é perfeitamente integrada ao utilitário SMI da NVIDIA. Ele fornece um dashboard pré-construído contendo métricas DCGM cruciais, incluindo utilização de GPU, contagens de erros XID, estados de clock e desempenho, temperatura e uso de energia.
Depois de configurar nossa integração NVIDIA DCGM, fornecemos um dashboard para sua métrica DCGM.
Instalar o agente de infraestrutura
Para colocar dados no New Relic, instale nosso agente de infraestrutura. Nosso agente de infraestrutura coleta e ingere dados para que você possa acompanhar o desempenho do seu DCGM.
É possível instalar o agente de infraestrutura de duas maneiras diferentes:
- Nossa instalação guiada é uma ferramenta CLI que inspeciona seu sistema e instala o agente de infraestrutura junto com o agente de monitoramento do aplicativo que melhor funciona para seu sistema. Para saber mais sobre como funciona nossa instalação guiada, confira nossa Visão geral da instalação guiada.
- Se preferir instalar nosso agente de infraestrutura manualmente, você pode seguir um tutorial para instalação manual para Linux, Windows.
Configurar o exportador DCGM
No seu terminal, clone o repositório
dcgm-exporter
:bash$git clone https://github.com/NVIDIA/dcgm-exporterNo repositório clonado, navegue até o diretório
dcgm-exporter
:bash$cd dcgm-exporterInstale os binários necessários:
bash$make binarybash$sudo make installInicie o
dcgm-exporter
:bash$dcgm-exporter &Veja os detalhes da sua métrica DCGM:
bash$curl localhost:9400/metrics
Configuração NVIDIA-DCGM no Prometheus
Prometheus é uma ferramenta de monitoramento e alerta de código aberto que pode ser usada para monitor GPUs NVIDIA usando o exportador NVIDIA-DCGM. Para configurar o Prometheus para monitor a métrica DCGM, siga estas etapas:
Visite a página de download do Prometheus para encontrar a versão mais recente.
Selecione a versão apropriada para seu sistema operacional e arquitetura. Para Linux, você provavelmente escolherá a versão linux-amd64. Copie o link de download do tarball (arquivo
.tar.gz
).Depois que o Prometheus for baixado, descompacte o arquivo tar de download:
bash$tar -xvzf <filename.tar.gz>Navegue até a pasta baixada do Prometheus:
bash$cd /DOWNLOADED-FOLDER/Abra seu arquivo
prometheus.yml
e adicione as seguintes linhas:---scrape_configs:- job_name: NVIDIstatic_configs:- targets:['localhost:9400']Inicie o Prometeu:
bash$./prometheus --config.file=prometheus.yml
Instale o agente de gravação remota Prometheus para NVIDIA-DCGM
Após configurar a configuração do Prometheus, você deve enviar a métrica NVIDIA DCGM para o Prometheus. Posteriormente, para integrar a métrica do Prometheus ao New Relic, você pode aproveitar o agente de gravação remota do Prometheus. Basta seguir o iniciador de configuração de gravação remota do Prometheus na interface.
Reinicie o agente do New Relic Infrastructure
Antes de começar a ler seus dados, use as instruções em nossos documentos do agente de infraestrutura para reiniciar seu agente de infraestrutura.
$sudo systemctl restart newrelic-infra.service
Veja sua métrica DCGM no New Relic
Depois de concluir a configuração acima, você poderá visualizar sua métrica usando nosso modelo dashboard pré-construído chamado nvidia-dcgm. Para acessar este dashboard:
Vá para
one.newrelic.com > + Integrations & Agents
.
Clique na guia
Dashboards
.
Na caixa de pesquisa, digite “nvidia-dcgm”.
Selecione-o e clique em
Install
.
Para instrumentar o nvidia-dcgm
início rápido e ver métricas e alertas, você também pode seguir nossa página de início rápido Nvidia-DCGM clicando no botão Install now .
Aqui estão alguns exemplos de consulta:
Example: visualizar a contagem da temperatura da GPU do dispositivo
SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES
Qual é o próximo?
Para saber mais sobre como construir uma consulta NRQL e gerar um painel, confira estes documentos:
Introdução ao criador de consulta para criação de consultas básicas e avançadas.
Introdução aos dashboards para personalizar seu dashboard e realizar diversas ações.
Gerencie seu dashboard para ajustar o
modo de exibição ou para adicionar mais conteúdo ao dashboard.