Wie wird die Implementierung von Microsoft Purview zur automatisierten Klassifizierung von sensitiven Daten in einem heterogenen Cloud-Storage-Portfolio technisch orchestriert?

Die technische Orchestrierung erfolgt über die zentrale Purview Data Map, die als Graph-basiertes Repository für alle Metadaten dient. Wir registrieren die heterogenen Speicherorte – etwa AWS S3, Google Cloud Storage oder Azure Blob Storage – als Datenquellen innerhalb des Purview-Accounts. Für den Zugriff auf Ressourcen außerhalb des Azure-Backbones implementieren wir eine Self-hosted Integration Runtime (SHIR), die als gesicherter Proxy zwischen der Cloud-Control-Plane und den Remote-Datenquellen fungiert.

Der Prozess der automatisierten Klassifizierung wird durch die Konfiguration von Scan-Zyklen gesteuert. Dabei extrahiert Purview Metadaten und analysiert Datenstichproben anhand von Klassifizierungsregeln. Wir unterscheiden hierbei zwischen System-Klassifizierungen (vordefinierte Muster wie Kreditkartennummern oder IBANs) und benutzerdefinierten Klassifizierungen, die wir über reguläre Ausdrücke (Regex) präzise definieren.

KomponenteFunktionTechnische Umsetzung
Data MapMetadaten-SpeicherGraph-Struktur zur Abbildung von Assets und Lineage
ScannerDatenextraktionZeitgesteuerte Scans via Managed Identity oder Service Principal
Classification EngineMustererkennungAnwendung von Regex und ML-Modellen auf Sample-Daten
SHIRGatewayKonnektivität für Multi-Cloud- und On-Premises-Umgebungen

Im Rahmen unseres Data Engineering integrieren wir diese Klassifizierungen in den Data Lifecycle. Die Zuweisung von Sensitivity Labels erfolgt über die Verknüpfung mit Microsoft Information Protection (MIP). Die technische Kette sieht wie folgt aus:

  1. Registrierung: Anbindung der Quelle via Konnektor und Authentifizierung.
  2. Scanning: Ausführung des Scans zur Identifikation von Datentypen in den Files/Tabellen.
  3. Klassifizierung: Abgleich der Datenmuster mit den definierten Klassifizierungsregeln.
  4. Labeling: Automatisches Mapping der Klassifizierungen auf Sensitivity Labels.
  5. Governance: Synchronisation der Labels mit den zugrunde liegenden Storage-Policies zur Durchsetzung von Zugriffsbeschränkungen.

Durch diese Architektur wird die Sichtbarkeit sensitiver Daten über Cloud-Grenzen hinweg zentralisiert, ohne dass die Daten physisch verschoben werden müssen.

Wir empfehlen, die Klassifizierung nicht allein auf System-Regeln zu verlassen, sondern ein hybrides Modell aus Regex-basierten Custom Classifications und einer strikten Governance-Policy zu implementieren, um False-Positives in heterogenen Datensätzen zu minimieren.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt