Oldenburg Computer Science Series

Univ.-Prof. Dr. Susanne Boll,
Univ.-Prof. Dr. Sebastian Lehnhoff (Hrsg.)

Ralph Stuber

Integrationsnachgelagertes Datenmanagement in Data Warehouses unter Berücksichtigung verteilter Verantwortlichkeit

Um die aus der Verschneidung verschiedener Datenbestände entstehenden Synergieeffekte zu nutzen und so zusätzliche Informationen zu gewinnen, werden zunehmend integrierte Datenbestände beispielsweise in Form von Data Warehouses erzeugt, die sich aus verschiedenen Datenquellen speisen. Die so gewonnenen Informationen dienen verschiedenen Anwendungsfeldern, so z.B. zur Veröffentlichung von Informationen im Intra- oder Internet oder zur Durchführung von Analysen, deren Ergebnisse zur Entscheidungsunterstützung verwendet werden können.

Häufig erfolgt die Erzeugung integrierter Datenbestände jedoch nicht durch die Urheber der verschiedenen Datenquellen selbst, sondern durch andere Personen, Institutionen oder Dienstleister, so dass Szenarien verteilter Verantwortlichkeiten entstehen. Durch diesen Umstand bedingt ergibt sich für die jeweiligen Quelldatenurheber oftmals erst nach Veröffentlichung der Daten des integrierten Datenbestandes eine Möglichkeit zur Einsicht in die integrierten Datenbestände. Haben Quelldatenurheber nun ein Interesse einer „korrekten“ Darstellung der von ihnen verantworteten Daten in fremdverantworteten integrierten Datenbeständen, so entfällt für sie das klassische Vorgehen zur Durchführung von Datenqualitätsmanagement im Data Warehousing im Rahmen der ETL-Prozesse (Extraktion, Transformation, Laden), da sie durch die fehlende Einbeziehung in den Aufbau der integrierten Datenbestände keine Möglichkeit der Einbringung von Änderungs- oder Korrekturwünschen im vorgelagerten Integrationsprozess haben. Auch andere Umstände motivieren Datenqualitätsmanagement auf dem bereits integrierten Datenbestand, so z.B. eine potentielle Aufwandsersparnis gegenüber einer erneuten vollständigen Quelldatenintegration, fehlende Kenntnis über den Ursprung der Daten (Data Provenance) oder eine nachträglich nicht sichergestellte Datenverfügbarkeit in den Quellen. Insgesamt kann daher ein Bedarf an integrationsnachgelagertem Datenmanagement (INDM) identifiziert werden.

Zur Befriedigung dieses Bedarfs wird im Rahmen dieser Arbeit das Vorgehensmodell VD2M (Vorgehensmodell zur Delegation von Datenmanagement) entwickelt. Es gibt den Urhebern der Quelldaten die Möglichkeit, integrationsnachgelagert Datenmanipulationen direkt am integrierten Datenbestand nachvollziehbar und reversibel zu initiieren und somit die Datenqualität integrierter Datenbestände und Data Warehouses auch nach Abschluss der ETL-Phase zu erhöhen und die Korrektheit der eigenverantworteten Daten in fremdverantworteten integrierten Datenbeständen sicherzustellen. Am Beispiel eines Internet-Portals aus der Domäne des Gesundheitswesens wird aufgezeigt, wie eine werkzeuggestützte Umsetzung WD2M (Werkzeuge zur Delegation von Datenmanagement) des Vorgehensmodells zur Lösung der dargestellten Problemstellung beitragen kann, indem sie die Delegation integrationsnachgelagerter Datenmanagement-Aktivitäten auf fremdverantworteten Datenbeständen ohne Kenntnis der diesen zu Grunde liegenden informationstechnologischen Strukturen ermöglicht.

Bd. 16, XIV, 187 S., Edewecht 2011, € 39,80
ISBN-13 978-3-939704-65-2

Oldenburg Computer Science Series

Univ.-Prof. Dr. Susanne Boll,Univ.-Prof. Dr. Sebastian Lehnhoff (Hrsg.)

Ralph Stuber

Integrationsnachgelagertes Datenmanagement in Data Warehouses unter Berücksichtigung verteilter Verantwortlichkeit

Univ.-Prof. Dr. Susanne Boll,
Univ.-Prof. Dr. Sebastian Lehnhoff (Hrsg.)