GPU-Auslastung, Modell-Latenz, Token-Throughput: So überwachen Sie Ihre KI-Infrastruktur.
Warum Standard-Monitoring nicht reicht
CPU, RAM und Disk zu überwachen ist für KI-Server nicht genug. Sie brauchen GPU-spezifische Metriken: VRAM-Nutzung, GPU-Temperatur, Tensor-Core-Auslastung, PCIe-Bandwidth. Plus Modell-Metriken: Tokens/Sekunde, Time-to-First-Token, Queue-Länge.
GPU-Monitoring mit DCGM und Prometheus
NVIDIA DCGM (Data Center GPU Manager) exportiert detaillierte GPU-Metriken. In Kombination mit Prometheus und Grafana erhalten Sie Dashboards mit Echtzeit-Übersicht: GPU-Temperatur, Power-Draw, SM-Auslastung, Memory-Clock.
Modell-Metriken
Für LLM-Serving (vLLM, TGI): Requests/Sekunde, durchschnittliche Latenz, P95-Latenz, Token-Throughput, Queue-Tiefe, Batch-Größe. Für Batch-Jobs: Job-Dauer, GPU-Utilization während Training, Loss-Kurve.
Alerting: Was wirklich wichtig ist
Kritisch: GPU-Temperatur > 85°C, VRAM > 95%, Modell-Endpoint nicht erreichbar. Warnung: GPU-Auslastung < 20% (verschwendete Ressourcen), Latenz > 2x Baseline, Disk > 80%. Info: Neue Deployment-Version, Backup abgeschlossen.
Verdacloud Monitoring Stack
Auf allen Managed Servern vorinstalliert: DCGM Exporter + Prometheus + Grafana + AlertManager. Sie erhalten ein Dashboard mit allen relevanten Metriken und konfigurierbare Alerts per E-Mail oder Slack.
Interesse geweckt?
Lassen Sie uns gemeinsam herausfinden, wie wir Ihnen helfen können.
