Welche technischen Ansätze zur Optimierung von GPU-Partitionierung (MIG) in Azure Machine Learning Clustern maximieren die Ressourcenauslastung für AI-Workloads?

Die Maximierung der Ressourcenauslastung in Azure Machine Learning (AML) Clustern mittels Multi-Instance GPU (MIG) basiert auf der präzisen Abstimmung zwischen Hardware-Partitionierung und Workload-Anforderungen. Wir setzen hierbei auf eine Kombination aus statischer Profilierung und dynamischem Scheduling.

Ein zentraler Ansatz ist die Implementierung spezifischer MIG-Profile, die den GPU-Speicher und die Rechenleistung in isolierte Instanzen unterteilen. Dies verhindert, dass kleine Workloads, wie etwa Inferenz-Tasks oder leichtes Fine-Tuning, eine komplette A100- oder H100-GPU belegen und somit Ressourcen verschwenden.

Wir nutzen folgende Profil-Zuordnungen zur Optimierung:

MIG-ProfilGPU-SpeicherRechenleistungPrimärer Anwendungsfall
1g.5gb5 GB1/7 SMsLightweight Inference / Testing
2g.10gb10 GB2/7 SMsSmall Model Fine-tuning
3g.20gb20 GB3/7 SMsMedium-sized Training Jobs
4g.20gb20 GB4/7 SMsBalanced Workloads
7g.40gb40 GB7/7 SMsFull-scale LLM Training

Zur technischen Umsetzung in Azure ML Clustern integrieren wir das NVIDIA GPU Device Plugin. Dieses ermöglicht es dem Kubernetes-Scheduler, MIG-Instanzen als eigenständige Ressourcen zu erkennen. Anstatt eine gesamte GPU anzufordern, definieren wir in den Job-Spezifikationen exakt die benötigte MIG-Instanz. Dies reduziert die Fragmentierung des Clusters und erhöht die Packungsdichte der Workloads.

Ein weiterer Hebel ist die Überwachung via NVIDIA DCGM (Data Center GPU Manager). Wir analysieren die tatsächliche Auslastung der SMs (Streaming Multiprocessors) und des Speichers, um die Partitionierung iterativ anzupassen. Wenn wir KI-Lösungen & Integration für Kunden skalieren, implementieren wir oft eine automatisierte Profiling-Phase, in der Workloads zunächst in einer Test-Partition gemessen werden, bevor sie festen MIG-Slots zugewiesen werden.

Zusätzlich optimieren wir den Datendurchsatz durch die Nutzung von Azure Machine Learning Datasets mit optimierten Mount-Optionen, um sicherzustellen, dass die partitionierten GPUs nicht durch I/O-Wait-Zyklen unterausgelastet werden.

Wir empfehlen den konsequenten Verzicht auf Standard-GPU-Zuweisungen zugunsten einer strikten MIG-Strategie mit 2g.10gb- oder 3g.20gb-Profilen, da dies die höchste Balance zwischen Isolation und Durchsatz bietet und die Hardware-Kosten pro Trainingslauf signifikant senkt.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt