
Data Lakes: Stille Wasser sind tief
Letztes Jahr etablierte die Software AG einen Wissenschaftlichen Beirat. Das Gremium bietet der Software AG durch seine wissenschaftliche Perspektive wertvolle Impulse für (potenzielle) neue Technologietrends. In dieser Artikel-Serie beleuchten die Experten ihre Forschungsgebiete und geben einen kurzen Ausblick, wie sich diese künftig entwickeln werden. Prof Dr. Jens Dittrich befasst sich am Lehrstuhl Information Systems Group der Universität des Saarlandes mit den Themen Datenbanken, Data Management und Big Data.
Traditionell werden Geschäftsdaten in hochstrukturierten relationalen Datenbanken und speziellen Analysesystemen wie Data Warehouses gespeichert. Mit dem Aufkommen von Big Data wird es jedoch immer schwieriger, all diese Daten über Datenbanken oder No-SQL-Systeme zu verwalten und zu analysieren.
„Data Lakes“ erfassen deshalb alle Daten eines Unternehmens in einem zentralen Speicher als Rohdaten, ohne sie vorher zu schematisieren oder anderen Datenbereinigungs- oder Datenimport-Operationen zu unterziehen. Solche Operationen werden erst in einem zweiten Schritt vorgenommen. So bleibt die Flexibilität für Datenabgleich und -analyse gewahrt.
In der Regel sind Data Lakes technisch als verteilte Dateisysteme (wie HDFS) implementiert und umfassen alle Daten eines Unternehmens. Für alle weiteren Analysen wie strukturierte Abfragen, Data-Mining, traditionelles Maschinenlernen oder Deep Learning findet eine Strukturierung nach Bedarf statt. Beispielsweise werden mithilfe entsprechender Workflows und Tools die Rohdaten im Data Lake schrittweise interaktiv gefiltert, bereinigt und angereichert, um klare und eindeutige Informationen zu erhalten. Im Gegensatz zu relationalen Datenbanksystemen – denen die Daten fest zugeordnet sind – werden die Daten in einem Data Lake nicht notwendigerweise einem bestimmten Tool oder System zugeordnet.
Der Grundgedanke des Data Lakes ist vergleichbar mit dem Konzept eines „Dataspaces”, in den im Lauf der Zeit Daten aus unterschiedlichen Quellen integriert werden. Data Lakes passen sehr gut zu den explorativen Workflows von Datenwissenschaftlern, die Daten eher selten in relationalen Datenbanksystemen verwalten.
Lesen Sie hier alle weiteren Beiträge des Wissenschaftlichen Beirats der Software AG:
- Künstliche Intelligenz treibt die zweite Welle der Digitalisierung (Prof. Dr. rer. Nat. Dr. h.c. mult. Wolfgang Wahlster)
- Ende-zu-Ende Modellierung von Smart Ecosystems (Prof. Dr.-Ing. habil. Peter Liggesmeyer)
- Neue B2B-Geschäftsmodelle durch das IoT (Prof. Dr. Friedemann Mattern)
- Die Transformation der Software-Architektur für das IoT (Prof. Dr. Reinhard Schütte)
- Ende-zu-Ende-Sicherheit ist ein Muss (Prof. Dr. Michael Waidner)