Data Lake

Was versteht man unter einem Data Lake?

Ein Data Lake ist ein zentrales Repository, das es Unternehmen ermöglicht, große Mengen an Daten unterschiedlichster Formate zu speichern – ganz gleich, ob strukturiert, semi-strukturiert oder unstrukturiert. Damit unterscheidet sich dieses Konzept grundlegend von klassischen Data-Warehouse-Ansätzen, die primär für strukturierte Daten ausgelegt sind.

Ein moderner Data Lake verarbeitet nicht nur ERP- und CRM-Daten, sondern ebenso Bilder, Sensordaten oder Social-Media-Beiträge. Diese Vielfalt schafft die technologische Basis, um neue Potenziale der Datenanalyse zu erschließen.

Fachabteilungen profitieren von gewohnten Reporting-Funktionalitäten und können weiterhin auf konsolidierte Unternehmenskennzahlen zugreifen. Darüber hinaus bietet der Data Lake insbesondere Data Scientists die Möglichkeit, explorative Analysen direkt auf den Rohdaten durchzuführen. Dadurch lassen sich neue Zusammenhänge entdecken und datengetriebene Innovationen gezielt vorantreiben.

Data Lake und Data Warehouse im Vergleich

Auch wenn Data Lake und Data Warehouse (DWH) auf den ersten Blick ähnliche Ziele verfolgen – nämlich die zentrale Speicherung von Unternehmensdaten – unterscheiden sich beide Konzepte grundlegend in ihrer Herangehensweise.

Im klassischen DWH werden Daten vor der Speicherung bereits strukturiert, transformiert und für konkrete Anwendungsfälle aufbereitet. Dieses Prinzip der „Schema-on-Write“-Strategie ermöglicht eine hohe Performance für definierte Abfragen, schränkt jedoch die Flexibilität ein: Neue Datenquellen oder unstrukturierte Datenformate lassen sich nur schwer oder mit erheblichem Aufwand integrieren.

Im Gegensatz dazu verfolgt der Data Lake das Prinzip „Schema-on-Read“. Daten werden roh und unverändert gespeichert – ganz gleich, ob strukturiert oder unstrukturiert. Die eigentliche Aufbereitung erfolgt erst bei Bedarf, also genau dann, wenn eine spezifische Analyse oder Auswertung angefragt wird. Diese bedarfsgerechte Flexibilität macht den Data Lake besonders attraktiv für moderne Anwendungsfelder wie Machine Learning oder Big Data Analytics.

Spannend ist in diesem Zusammenhang die Entwicklung seitens Microsoft: Als einer der führenden Technologieanbieter bezeichnet das Unternehmen seine auf Data-Lake-Technologie basierenden Analyse-Plattformen inzwischen als „Modern Data Warehouse“. Diese hybride Architektur vereint die Vorteile beider Welten – klassische Datenmodellierung und maximale Flexibilität – und stellt eine zukunftsfähige Lösung für datengetriebene Unternehmen dar.

Mehrwert durch Data Lakes: So nutzen Sie Ihr Datenpotenzial!

Viele Unternehmen verfügen bereits über erste Ansätze zur Sammlung von Rohdaten – häufig auf lokalen Infrastrukturen. Doch erst mit der Einbindung moderner Cloud-Dienste entfaltet ein Data Lake sein volles Potenzial.

Cloud-Plattformen wie Microsoft Azure bieten Data Scientists die Möglichkeit, flexibel auf leistungsstarke Analyse-Tools und skalierbare Rechenkapazitäten zuzugreifen – genau dann, wenn sie gebraucht werden. Nach Abschluss der Analysen können diese Ressourcen unkompliziert wieder deaktiviert werden. Dieses „Pay-as-you-go“-Modell sorgt für maximale Effizienz und Kostentransparenz.

Darüber hinaus lassen sich in der Cloud unbegrenzt viele Daten – sowohl Rohdaten als auch Ergebnisse vorheriger Berechnungen – langfristig und kostengünstig speichern. Unternehmen profitieren damit von einer hochgradig wirtschaftlichen und zugleich zukunftssicheren Lösung für datenbasierte Entscheidungen. Da ein Data Lake alleine allerdings ab einer gewissen Größe auch in Unternehmen nicht die beste Lösung darstellt wurde das Data Lakehouse erarbeitet, dass das Thema zentrale Aufbereitung von Daten und Prozessen mit der entsprechenden Governance und Integration in bestehende Data Warehouse Lösungen zum Ziel hat.

Ein vergleichbares Szenario lässt sich in einer rein lokalen IT-Infrastruktur nur schwer abbilden – zu hoch wären die Investitions- und Betriebskosten.