[Prometheus] DCGM exporter MIG metrics
DCGM exrpoter에서 MIG된 인스턴스가 메트릭에서 어떻게 찍히는지 확인하기 위해서 nvidia A100이 설치된 on-premise server에서 테스트를 진행하였습니다. https://docs.nvidia.com/datacenter/cloud-native/gpu-telemetry/latest/dcgm-exporter.html DCGM Exporter — NVIDIA GPU Telemetry 1.0.0 documentationIn this scenario the DCGM nv-hostengine runs in a separate container on the same host making its client port available to DCGM-Exporter as well as dcgm..
개발/Kubernetes
2024. 7. 18. 15:41