DCGM exrpoter에서 MIG된 인스턴스가 메트릭에서 어떻게 찍히는지 확인하기 위해서 nvidia A100이 설치된 on-premise server에서 테스트를 진행하였습니다.
https://docs.nvidia.com/datacenter/cloud-native/gpu-telemetry/latest/dcgm-exporter.html
DCGM Exporter — NVIDIA GPU Telemetry 1.0.0 documentation
In this scenario the DCGM nv-hostengine runs in a separate container on the same host making its client port available to DCGM-Exporter as well as dcgmi client commands. Warning Similar to the warning when connecting to an existing DCGM agent, the DCGM Exp
docs.nvidia.com
의 맨마지막 부분을 보면 우분투 20.04의 DCGM exporter 2.1.8 버전 부터 MIG에 대한 메트릭을 수집하는것으로 보인다.
ubuntu 20.04
nvidia-driver-server 550.90 version
kubernetes는 1.30 version
DCGM exporter는 3.3.6 version
prometheus의 경우 2.53 version
을 사용해서 MIG의 인스턴스를 확인하기 우분투를 제외한 나머지는 모두 최대한 최신버전들을 사용해서 테스트해보았다.
위와 같이 dcgm exporter의 메트릭 수집 목록을 따로 수정하지 않아도 MIG된 인스턴스가 메트릭으로 확인 할 수 있는것을 확인 할 수 있다.
MIG 설정 방법은 추후에 글을 쓰게 된다면 링크를 첨부하겠습니다.
DCGM exporter를 추가하는 방법의 링크를 첨부하니 DCGM helm을 사용할 예정이면 참고하면 도움이 될것 같습니다.
[k8s prometheus] DCGM exporter 추가
DCGM exporter란 NVIDIA GPU의 메트릭을 수집하여 내보내주는 역할을 합니다.자세한 내용 및 설치를 위해서는 첨부하는 링크를 확인바랍니다.https://docs.nvidia.com/datacenter/cloud-native/gpu-telemetry/latest/dcgm-exp
tuu-lx.tistory.com
[Prometheus] Exporter 추가 방법 (0) | 2024.07.18 |
---|---|
[Prometheus] DCGM exporter Failed to intialize NVML Error (0) | 2024.07.18 |
[prometheus] metric 수집 테스트 (0) | 2024.05.21 |
[kubernetes]etcd backup&restore (0) | 2024.05.04 |
[kubernetes]Static Pod생성하기 (0) | 2024.04.30 |