상세 컨텐츠

본문 제목

[Prometheus] DCGM exporter MIG metrics

개발/Kubernetes

by 맹수자두 2024. 7. 18. 15:41

본문

DCGM exrpoter에서 MIG된  인스턴스가 메트릭에서 어떻게 찍히는지 확인하기 위해서 nvidia A100이 설치된 on-premise server에서 테스트를 진행하였습니다.

 

https://docs.nvidia.com/datacenter/cloud-native/gpu-telemetry/latest/dcgm-exporter.html

 

DCGM Exporter — NVIDIA GPU Telemetry 1.0.0 documentation

In this scenario the DCGM nv-hostengine runs in a separate container on the same host making its client port available to DCGM-Exporter as well as dcgmi client commands. Warning Similar to the warning when connecting to an existing DCGM agent, the DCGM Exp

docs.nvidia.com

의 맨마지막 부분을 보면 우분투 20.04의 DCGM exporter 2.1.8 버전 부터 MIG에 대한 메트릭을 수집하는것으로 보인다.

 

ubuntu 20.04

nvidia-driver-server 550.90 version

kubernetes는 1.30 version

DCGM exporter는 3.3.6 version

prometheus의 경우 2.53 version

을 사용해서 MIG의 인스턴스를 확인하기 우분투를 제외한 나머지는 모두 최대한 최신버전들을 사용해서 테스트해보았다.

 

MIG metrics

위와 같이 dcgm exporter의 메트릭 수집 목록을 따로 수정하지 않아도 MIG된 인스턴스가 메트릭으로 확인 할 수 있는것을 확인 할 수 있다.

 

MIG 설정 방법은 추후에 글을 쓰게 된다면 링크를 첨부하겠습니다.

 

DCGM exporter를 추가하는 방법의 링크를 첨부하니 DCGM helm을 사용할 예정이면 참고하면 도움이 될것 같습니다.

https://tuu-lx.tistory.com/4

 

[k8s prometheus] DCGM exporter 추가

DCGM exporter란 NVIDIA GPU의 메트릭을 수집하여 내보내주는 역할을 합니다.자세한 내용 및 설치를 위해서는 첨부하는 링크를 확인바랍니다.https://docs.nvidia.com/datacenter/cloud-native/gpu-telemetry/latest/dcgm-exp

tuu-lx.tistory.com

 

 

관련글 더보기