Wie unterscheidet sich die Implementierung von Data Vault 2.0 Satelliten von klassischen SCD-Type-2 Tabellen?

Die Implementierung von Data Vault 2.0 Satelliten unterscheidet sich grundlegend von klassischen Slowly Changing Dimensions (SCD) Type 2 durch den Verzicht auf Update-Operationen und die strikte Trennung von Business-Keys und Attributen. Während SCD Type 2 Tabellen den aktuellen Zustand durch das Schließen alter Datensätze (End-Datum) und das Öffnen neuer Zeilen verwalten, folgen Satelliten einem reinen Append-Only-Prinzip.

In einer SCD Type 2 Tabelle wird bei einer Änderung eines Attributs die bestehende Zeile aktualisiert, um das Gültigkeitsdatum zu setzen. Dies führt bei großen Datenmengen zu Performance-Einbußen durch Lock-Mechanismen in der Datenbank. Satelliten hingegen speichern jede Änderung als neuen Eintrag mit einem Zeitstempel (Load Date). Die Historisierung erfolgt implizit über die zeitliche Abfolge der Einträge pro Hub-Hash-Key.

MerkmalSCD Type 2Data Vault 2.0 Satellit
SchreibmodusUpdate & InsertNur Insert (Append-only)
SchlüsselBusiness Key / Surrogate KeyHub Hash Key + Load Date
Status-TrackingStart/End-Datum, Current-FlagLoad Date (LDTS)
KopplungAttribute fest an Dimension gebundenAttribute in funktionalen Satelliten getrennt
LadeperformanceNiedriger (wegen Updates)Hoch (paralleles Laden möglich)

Durch diese Architektur entkoppeln wir die Geschäftslogik von der physischen Speicherung. In unserem IT-Consulting & Digitale Strategie setzen wir diesen Ansatz ein, um die Skalierbarkeit von Data Warehouses zu erhöhen. Da Satelliten keine Updates benötigen, lassen sie sich optimal in parallelen Lade-Pipelines und Cloud-Datenbanken implementieren.

Die Abfrage des aktuellen Zustands erfolgt bei SCD Type 2 über einen einfachen Filter auf das Current-Flag. Bei Data Vault 2.0 erfordert dies entweder einen Subselect auf das maximale Load Date oder die Nutzung von Point-in-Time (PIT) Tabellen, welche die zeitliche Zuordnung für die Performance-Optimierung vorbereiten.

Wir empfehlen den Einsatz von Data Vault 2.0 Satelliten gegenüber SCD Type 2 immer dann, wenn die Anforderungen an die Auditierbarkeit hoch sind und die Datenmengen ein Volumen erreichen, bei dem Update-Operationen zum Flaschenhals der ETL-Strecke werden.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt