Wie unterscheidet sich die Implementierung von Data Vault 2.0 Satelliten von klassischen SCD-Type-2 Tabellen?
Die Implementierung von Data Vault 2.0 Satelliten unterscheidet sich grundlegend von klassischen Slowly Changing Dimensions (SCD) Type 2 durch den Verzicht auf Update-Operationen und die strikte Trennung von Business-Keys und Attributen. Während SCD Type 2 Tabellen den aktuellen Zustand durch das Schließen alter Datensätze (End-Datum) und das Öffnen neuer Zeilen verwalten, folgen Satelliten einem reinen Append-Only-Prinzip.
In einer SCD Type 2 Tabelle wird bei einer Änderung eines Attributs die bestehende Zeile aktualisiert, um das Gültigkeitsdatum zu setzen. Dies führt bei großen Datenmengen zu Performance-Einbußen durch Lock-Mechanismen in der Datenbank. Satelliten hingegen speichern jede Änderung als neuen Eintrag mit einem Zeitstempel (Load Date). Die Historisierung erfolgt implizit über die zeitliche Abfolge der Einträge pro Hub-Hash-Key.
| Merkmal | SCD Type 2 | Data Vault 2.0 Satellit |
|---|---|---|
| Schreibmodus | Update & Insert | Nur Insert (Append-only) |
| Schlüssel | Business Key / Surrogate Key | Hub Hash Key + Load Date |
| Status-Tracking | Start/End-Datum, Current-Flag | Load Date (LDTS) |
| Kopplung | Attribute fest an Dimension gebunden | Attribute in funktionalen Satelliten getrennt |
| Ladeperformance | Niedriger (wegen Updates) | Hoch (paralleles Laden möglich) |
Durch diese Architektur entkoppeln wir die Geschäftslogik von der physischen Speicherung. In unserem IT-Consulting & Digitale Strategie setzen wir diesen Ansatz ein, um die Skalierbarkeit von Data Warehouses zu erhöhen. Da Satelliten keine Updates benötigen, lassen sie sich optimal in parallelen Lade-Pipelines und Cloud-Datenbanken implementieren.
Die Abfrage des aktuellen Zustands erfolgt bei SCD Type 2 über einen einfachen Filter auf das Current-Flag. Bei Data Vault 2.0 erfordert dies entweder einen Subselect auf das maximale Load Date oder die Nutzung von Point-in-Time (PIT) Tabellen, welche die zeitliche Zuordnung für die Performance-Optimierung vorbereiten.
Wir empfehlen den Einsatz von Data Vault 2.0 Satelliten gegenüber SCD Type 2 immer dann, wenn die Anforderungen an die Auditierbarkeit hoch sind und die Datenmengen ein Volumen erreichen, bei dem Update-Operationen zum Flaschenhals der ETL-Strecke werden.
Andere Fragen in dieser Kategorie
Andere Nutzer suchten auch nach:
Diese Fragen könnten Sie ebenfalls interessieren.
Inwiefern optimiert der Tungsten-Engine in Spark die Speicherverwaltung durch Binary Layouts und Unsafe-Operationen?
data-engineeringInwiefern unterscheidet sich das Z-Ordering von herkömmlichem Hive-Partitioning hinsichtlich der Data-Skipping-Effizienz?
data-engineeringWas ist der technische Unterschied zwischen 'At-least-once' und 'Exactly-once' Delivery in Kafka-Producer-Konfigurationen?
data-engineeringWas ist der technische Unterschied zwischen einer 'Push-based' und einer 'Pull-based' Orchestrierung in Prefect oder Dagster?
data-engineeringWas ist der technische Unterschied zwischen einer Broadcast Hash Join und einem Sort Merge Join in verteilten Systemen?