Data Lake
Data Lake
Zentrale Plattform für moderne Datenstrategien
Inhaltsverzeichnis
- Was ist ein Data Lake? Eine Definition
- Vorteile eines Data Lakes
- Einsatzszenarien eines Data Lake
- Welche Tools und Technologien gibt es?
- Data-Warehouse-Architektur
- Moderne Data Warehouse Plattformen
- Data Warehouse vs. Data Lake vs. Data Lakehouse
- Data Lake(house) mit ISR
- Warum Sie auf uns setzen sollten!
- Diese Beratungsleistungen bieten wir auch an
- Wertvolle Inhalte zum Thema Data Lake
Was ist ein Data Lake? Eine Definition
Ein Data Lake bildet neben dem Data Warehouse ein zentrales Fundament für ein datengetriebenes Unternehmen. Data Warehouse und Data Lake sind dabei als logische Einheit zu sehen, die sich technisch und funktional abgrenzen. Ein Data Lake ist eine zentrale Speicherplattform, die große Mengen an Daten in seinem Rohformat aufnimmt, speichert und verwaltet. Es handelt sich um ein flexibles und skalierbares Repository, das sowohl strukturierte, semi-strukturierte als auch unstrukturierte Daten aufnimmt. Die Daten werden in einem Data Lake ohne vorherige Transformation oder Modellierung gespeichert, was ihn von traditionellen Datenbanken oder Data Warehouses unterscheidet.

Daten werden in ihrem ursprünglichen Zustand gespeichert, ohne dass sie vorab verarbeitet oder strukturiert werden müssen. Das ermöglicht eine flexible Nutzung, da unterschiedliche Analysen auf demselben Datenbestand durchgeführt werden können.
Unterstützt strukturierte Daten (z. B. Tabellen), semi-strukturierte Daten (z. B. JSON, XML) und unstrukturierte Daten (z. B. Videos, Bilder, Audio, Log-Dateien).
Data Lakes sind häufig in der Cloud implementiert und können nahezu unbegrenzt wachsen, was sie ideal für Big-Data-Anwendungen macht.
Im Vergleich zu Data Warehouses ist die Speicherung in einem Data Lake in der Regel günstiger, da Daten in ihrem Rohzustand gespeichert werden und keine teuren Datenmodelle oder Transformationen erforderlich sind. Der Speicher ist häufig Object Storage, der große Datenmengen kostengünstig in Buckets ablegt.
Daten können jederzeit verarbeitet, analysiert und in verschiedenen Formaten extrahiert werden, z. B. für Machine Learning, KI-Analysen oder Echtzeitanwendungen.
Beide Ansätze bieten Vorteile, die sich stark ergänzen. Ein Data Lakehouse ist somit eine folgerichtige Weiterentwicklung der Datenarchitektur, die die Stärken von Data Lakes und Data Warehouses vereint. Es ist besonders geeignet für Unternehmen, die große und vielfältige Datenmengen effizient speichern, verarbeiten und analysieren möchten, ohne dabei die Konsistenz und Zuverlässigkeit traditioneller Systeme zu opfern.
Ein Data Lake bildet neben dem Data Warehouse ein zentrales Fundament für ein datengetriebenes Unternehmen. Data Warehouse und Data Lake sind dabei als logische Einheit zu sehen, die sich technisch und funktional abgrenzen. Ein Data Lake ist eine zentrale Speicherplattform, die große Mengen an Daten in seinem Rohformat aufnimmt, speichert und verwaltet. Es handelt sich um ein flexibles und skalierbares Repository, das sowohl strukturierte, semi-strukturierte als auch unstrukturierte Daten aufnimmt. Die Daten werden in einem Data Lake ohne vorherige Transformation oder Modellierung gespeichert, was ihn von traditionellen Datenbanken oder Data Warehouses unterscheidet.
Hauptmerkmale eines Data Lakes:
- Rohdatenformat: Daten werden in ihrem ursprünglichen Zustand gespeichert, ohne dass sie vorab verarbeitet oder strukturiert werden müssen. Das ermöglicht eine flexible Nutzung, da unterschiedliche Analysen auf demselben Datenbestand durchgeführt werden können.
- Vielfalt der Datentypen: Unterstützt strukturierte Daten (z. B. Tabellen), semi-strukturierte Daten (z. B. JSON, XML) und unstrukturierte Daten (z. B. Videos, Bilder, Audio, Log-Dateien).
- Skalierbarkeit: Data Lakes sind häufig in der Cloud implementiert und können nahezu unbegrenzt wachsen, was sie ideal für Big-Data-Anwendungen macht.
- Geringe Kosten: Im Vergleich zu Data Warehouses ist die Speicherung in einem Data Lake in der Regel günstiger, da Daten in ihrem Rohzustand gespeichert werden und keine teuren Datenmodelle oder Transformationen erforderlich sind. Der Speicher ist häufig Object Storage, der große Datenmengen kostengünstig in Buckets ablegt.
- Flexibilität bei der Datenanalyse: Daten können jederzeit verarbeitet, analysiert und in verschiedenen Formaten extrahiert werden, z. B. für Machine Learning, KI-Analysen oder Echtzeitanwendungen.
Beide Ansätze bieten Vorteile, die sich stark ergänzen. Ein Data Lakehouse ist somit eine folgerichtige Weiterentwicklung der Datenarchitektur, die die Stärken von Data Lakes und Data Warehouses vereint. Es ist besonders geeignet für Unternehmen, die große und vielfältige Datenmengen effizient speichern, verarbeiten und analysieren möchten, ohne dabei die Konsistenz und Zuverlässigkeit traditioneller Systeme zu opfern.
Das Data Lakehouse – Ein Anwendungsfall in Databricks und SAP Datasphere
In diesem Whitepaper erklären wir Ihnen anhand von Beispieldaten Schritt für Schritt den Aufbau eines Data Lakehouse mithilfe von SAP Datasphere und Databricks und diskutieren, warum besonders im Geschäftskontext vieler deutscher Unternehmen die Nutzung eines Lakehouse sinnvoll ist.
Vorteile eines Data Lakes
Ein Data Lake bietet Ihnen eine kosteneffiziente, flexible und skalierbare Lösung zur Speicherung und Analyse großer und vielfältiger Datenmengen. Er ist besonders nützlich für moderne datenintensive Anwendungen wie Big Data, KI, Machine Learning und Echtzeitanalysen. Data Lakes bieten folgende Vorteile:
Flexibel & skalierbar
Speichert strukturierte und unstrukturierte Daten in Rohform – ohne vorherige Transformation. Einfaches Hinzufügen neuer Datentypen und horizontale Skalierung möglich.
Kosteneffizienz
Geringe Speicher- und Betriebskosten durch Cloud-Technologien. Ideal für große Datenmengen wie IoT- oder Streamingdaten.
Zentrale Plattform
Bündelt Daten aus unterschiedlichen Quellen (CRM, ERP, IoT etc.) für unternehmensweite Nutzung und vereinheitlichte Analyse
Echtzeitfähig & analytisch stark
Integriert Streaming-Technologien wie Apache Kafka oder Flink. Unterstützt moderne Analyse- und Machine-Learning-Tools direkt auf Rohdaten.
Schema-on-Read
Flexibilität bei der Datenanalyse: Strukturen werden erst beim Lesen angewendet – perfekt für explorative Analysen.
Zugänglich für alle Nutzergruppen
Ob Business-Analyst:innen, Entwickler:innen oder Data Scientists – alle greifen auf dieselbe Datenbasis zu, je nach Bedarf und Tools.
Langfristige Speicherung & Integration
Beliebig große Datenmengen können dauerhaft gespeichert und mit Cloud- sowie Big-Data-Technologien wie Spark, Hadoop oder Presto genutzt werden.
Flexibilität bei der Datenspeicherung
Ein Data Lake kann Daten in ihrer Rohform speichern, unabhängig von ihrer Struktur.
- Unterstützung für strukturierte, semistrukturierte und unstrukturierte Daten (z. B. Tabellen, JSON-Dateien, Bilder, Videos, Logs).
- Keine Notwendigkeit, Daten vor dem Speichern zu transformieren.
- Einfaches Hinzufügen neuer Datentypen ohne Änderung der Architektur.
Kosteneffizienz
Data Lakes nutzen kostengünstige Speicherlösungen, oft auf Cloud-Basis.
Skalierbarkeit bei geringen Kosten.
- Ideal für die Speicherung großer Datenmengen, z. B. IoT-Daten, Streaming-Daten oder historische Daten.
- Reduzierung der Speicherkosten im Vergleich zu traditionellen Data Warehouses.
Skalierbarkeit
Ein Data Lake ist für die Speicherung und Verarbeitung riesiger Datenmengen ausgelegt.
- Horizontale Skalierung bei wachsendem Datenvolumen.
- Geeignet für Big-Data-Anwendungen und Echtzeit-Datenströme.
Unterstützung für moderne Analysen
Data Lakes ermöglichen die Nutzung moderner Datenanalyse- und Machine-Learning-Methoden.
- Einfacher Zugriff für Data Scientists und KI-Entwickler.
- Unterstützung von Machine-Learning-Frameworks wie TensorFlow, PyTorch oder Spark MLlib.
- Ermöglicht die Entwicklung von Algorithmen direkt auf den Rohdaten.
Zentrale Datenplattform
Ein Data Lake dient als zentraler Speicherort für Daten aus unterschiedlichen Quellen.
- Integration heterogener Datenquellen (z. B. CRM, ERP, IoT-Geräte, Social Media).
- Eine einzige Plattform für die Speicherung und Analyse, unabhängig von der Quelle oder Struktur der Daten.
- Ermöglicht die Vereinheitlichung von Daten für unternehmensweite Nutzung.
Unterstützung für Schema-on-Read
Daten können beim Lesen strukturiert und analysiert werden, anstatt beim Schreiben.
- Flexibilität bei der Datenanalyse, da unterschiedliche Nutzer verschiedene Schemata anwenden können.
- Daten müssen nicht vor der Speicherung aufwendig transformiert werden.
- Ermöglicht explorative Analysen und unterschiedliche Verarbeitungsmethoden.
Unterstützung für Echtzeitdaten
Moderne Data Lakes können Streamingdaten und Echtzeitquellen integrieren.
- Verarbeitung von Live-Datenströmen für Anwendungen wie Betrugserkennung, IoT-Analysen oder Echtzeit-Dashboards.
- Integration von Technologien wie Apache Kafka oder Flink.
Demokratisierung von Daten
Ein Data Lake ermöglicht einen breiten Zugang zu Daten im Unternehmen.
- Daten sind für verschiedene Abteilungen zugänglich, z. B. Marketing, Finanzen oder IT.
- Förderung einer datengetriebenen Unternehmenskultur.
- Selbstbedienung für Analysten und Data Scientists ohne starke Abhängigkeit von IT-Abteilungen.
Langfristige Speicherung historischer Daten
Data Lakes speichern Daten unbegrenzt, auch wenn sie aktuell nicht benötigt werden.
- Historische Daten stehen für zukünftige Analysen und Machine-Learning-Modelle zur Verfügung.
- Keine Einschränkungen durch Speicherplatz oder Kosten wie bei anderen Systemen.
Integration mit Big Data und Cloud-Technologien
Data Lakes arbeiten nahtlos mit modernen Big-Data-Technologien zusammen.
- Nutzung von Hadoop, Spark, Presto und anderen Big-Data-Frameworks.
- Skalierbare Cloud-Speicherlösungen wie Amazon S3, Azure Data Lake oder Google Cloud Storage.
Unterstützung für verschiedene Nutzergruppen
Ein Data Lake kann von unterschiedlichen Nutzertypen genutzt werden.
- Business-Analysten: Zugriff auf strukturierte Daten für Berichte.
- Data Scientists: Nutzung von Rohdaten für explorative Analysen.
- Entwickler: Nutzung der Daten für Anwendungen und Algorithmen.
Unterstützung für verschiedene Nutzergruppen
Daten können beim Lesen strukturiert und analysiert werden, anstatt beim Schreiben.
- Flexibilität bei der Datenanalyse, da unterschiedliche Nutzer verschiedene Schemata anwenden können.
- Daten müssen nicht vor der Speicherung aufwendig transformiert werden.
- Ermöglicht explorative Analysen und unterschiedliche Verarbeitungsmethoden.
Einsatzszenarien eines Data Lake
Data Lakes bieten eine flexible und skalierbare Lösung für die Speicherung und Verarbeitung großer und vielfältiger Datenmengen. Sie sind besonders geeignet für verschiedene datenintensive Anwendungsfälle. Hier sind die wichtigsten Einsatzszenarien für Data Lakes:
Data Lakes dienen als Speicher für enorme Datenmengen aus verschiedensten Quellen und diese werden oft in ihrer ursprünglichen, unverarbeiteten Form abgelegt. Diese Technologie ermöglicht die effiziente Verarbeitung von Daten, die von IoT-Geräten, Sensoren und anderen Echtzeitquellen generiert werden. Darüber hinaus bieten Data Lakes die Option, umfangreiche Logdaten zu speichern, die von Systemen, Anwendungen oder Netzwerken erzeugt werden. Ein weiterer wichtiger Aspekt ist die Konsolidierung von Daten aus externen Quellen wie Social Media-Plattformen und Web-Tracking-Systemen, wodurch eine umfassende Datenbasis für Analysen und Entscheidungsfindung geschaffen wird.
Data Lakes bilden eine wesentliche Grundlage für das Training von Machine-Learning-Modellen, indem sie umfangreiche und diverse Datensätze bereitstellen. Diese Technologie ermöglicht das Training von KI-Modellen mit einer breiten Palette von unstrukturierten und semi-strukturierten Daten, wie z. B. Texten, Bildern und Videos. Die Nutzung dieser vielfältigen Datenquellen ermöglicht Unternehmen die Entwicklung hochentwickelter, personalisierter Empfehlungssysteme, die auf das individuelle Nutzerverhalten zugeschnitten sind. So spielen Data Lakes beispielsweise eine wichtige Rolle bei der Erkennung von Anomalien, sei es in Finanztransaktionen oder Produktionsprozessen. So können Unternehmen potenzielle Risiken frühzeitig identifizieren und proaktiv darauf reagieren.
Moderne Data Lakes haben sich zu leistungsfähigen Plattformen entwickelt, die Streaming-Datenquellen integrieren und Echtzeitanalysen ermöglichen. Dies eröffnet vielfältige Anwendungsmöglichkeiten in verschiedenen Branchen:
- Betrugserkennung in Finanzdienstleistungen durch die Analyse von Transaktionen in Echtzeit.
- Überwachung und Steuerung von IoT-Geräten oder Sensoren in der Produktion.
- Echtzeit-Marketing durch die Analyse von Benutzerinteraktionen auf Webseiten oder in Apps.
Data Lakes bieten eine kostengünstige Lösung für die Langzeitspeicherung großer Datenmengen. Sie ermöglichen die Aufbewahrung historischer Daten für Compliance und Audits, was besonders in regulierten Branchen wichtig ist. Rohdaten können archiviert und später für Analysen oder Modelle genutzt werden, was Flexibilität für zukünftige Projekte schafft zum Beispiel für retrospektive Analysen und die Identifikation langfristiger Trends
Data Lakes dienen als Grundlage für die Analyse von Geschäftsdaten. Durch die Zusammenführung von Daten aus verschiedenen Systemen können aussagekräftige Dashboards und Berichte erstellt werden. Diese bieten Entscheidungsträgern einen ganzheitlichen Überblick über die Geschäftsprozesse und -leistung. Darüber hinaus unterstützen Data Lakes die Durchführung von Ad-hoc-Analysen und explorativer Datenanalyse. Analysten können flexibel auf den gesamten Datenbestand zugreifen, um neue Erkenntnisse zu gewinnen oder spezifische Fragestellungen zu beantworten. Die Bereitstellung eines zentralen Datenpools fördert Self-Service-BI-Initiativen. Mitarbeiter verschiedener Abteilungen können selbstständig auf relevante Daten zugreifen und Analysen durchführen. Dies beschleunigt die Entscheidungsfindung und stärkt die Datenkultur im Unternehmen.
Data Lakes sind die bevorzugte Plattform für Data Scientists, da sie flexiblen Zugang zu Rohdaten bieten. Sie sind so in der Lage, explorative Datenanalysen durchzuführen und Daten effizient für Machine-Learning-Modelle vorzubereiten. Der unmittelbare Zugriff auf Rohdaten erlaubt es ihnen, Muster zu erkennen und Hypothesen zu testen, ohne durch vordefinierte Datenstrukturen eingeschränkt zu sein. Die Integration moderner Big-Data-Technologien wie Apache Spark, Flink oder Presto in Data Lakes ermöglicht die Verarbeitung und Analyse großer Datenmengen in Echtzeit. Diese Tools bieten leistungsstarke Funktionen für verteiltes Computing und Datenverarbeitung. Data Lakes erlauben die Kombination von Daten aus verschiedenen Quellen, was innovative Anwendungsfälle ermöglicht.
Forschungsteams setzen zunehmend auf Data Lakes, um große und vielfältige Datenmengen effizient zu speichern und zu analysieren. Diese Technologie bietet entscheidende Vorteile für verschiedene wissenschaftliche Disziplinen:
- Wissenschaftliche Analysen von Experimentaldaten in der Biotechnologie, Chemie oder Astronomie.
- Modellierung und Simulation in Bereichen wie Klimaforschung oder Materialwissenschaften.
- Speicherung und Analyse von Open-Data-Datensätzen.
Data Lakes ermöglichen die Nutzung von Daten über verschiedene Cloud-Plattformen hinweg. Sie bieten Unternehmen die Flexibilität, Daten zentral zu speichern und gleichzeitig Analysen auf verschiedenen Cloud-Plattformen durchzuführen. Dadurch wird eine optimale Nutzung spezifischer Cloud-Dienste für unterschiedliche Analyseanforderungen ermöglicht. Zudem unterstützen Data Lakes hybride Architekturen, die On-Premise- und Cloud-Daten kombinieren. Dadurch können Unternehmen ihre bestehenden lokalen Infrastrukturen mit Cloud-Ressourcen verbinden und eine nahtlose Datenintegration über verschiedene Umgebungen hinweg realisieren. Data Lakehouses, eine Weiterentwicklung von Data Lakes, integrieren die Vorteile von Data Warehouses und Data Lakes.
Welche Tools und Technologien gibt es?
Ein Data Lake basiert auf einer Vielzahl moderner Technologien, die nahtlos zusammenarbeiten, um große und vielfältige Datenmengen zu speichern, zu integrieren, zu analysieren und zu sichern. Die Auswahl der Tools hängt von den spezifischen Anforderungen ab, wie der Art der Daten (strukturiert, unstrukturiert), dem gewünschten Anwendungsfall (Batch- oder Echtzeitverarbeitung) und der bevorzugten Infrastruktur (Cloud oder On Premise).
Sicherheits- und Zugriffskontrolltools
Cloud-basierte Speicherlösungen:
- Amazon S3 (Simple Storage Service): Beliebter Objektspeicher für Data Lakes.
- Azure Data Lake Storage: Skalierbare und sichere Speicherlösung von Microsoft Azure.
- Google Cloud Storage: Cloud-basierte Plattform für unstrukturierte Daten.
- IBM Cloud Object Storage: Speziell für große Datenvolumen geeignet.
Sicherheits- und Zugriffskontrolltools
Cloud-basierte Speicherlösungen:
- Amazon S3 (Simple Storage Service): Beliebter Objektspeicher für Data Lakes.
- Azure Data Lake Storage: Skalierbare und sichere Speicherlösung von Microsoft Azure.
- Google Cloud Storage: Cloud-basierte Plattform für unstrukturierte Daten.
- IBM Cloud Object Storage: Speziell für große Datenvolumen geeignet.
Datenintegration und Ingestion
- Apache Kafka: Plattform für die Verarbeitung von Streaming-Daten in Echtzeit.
- Apache Nifi: Automatisiert den Datenfluss zwischen verschiedenen Systemen.
- Talend: Datenintegrationsplattform für strukturierte und unstrukturierte Daten.
- Fivetran: Cloud-native Lösung für die Datenintegration.
- AWS Glue: Datenintegrationstool mit ETL-Funktionalität in AWS.
Verarbeitung und Analyse
Für die Verarbeitung und Analyse der Daten werden leistungsfähige Frameworks und Engines eingesetzt.
Batch-Verarbeitung:
- Amazon S3 (Simple Storage Service): Beliebter Objektspeicher für Data Lakes.
- Azure Data Lake Storage: Skalierbare und sichere Speicherlösung von Microsoft Azure.
- Google Cloud Storage: Cloud-basierte Plattform für unstrukturierte Daten.
- IBM Cloud Object Storage: Speziell für große Datenvolumen geeignet.
Verarbeitung und Analyse
Für die Verarbeitung und Analyse der Daten werden leistungsfähige Frameworks und Engines eingesetzt.
Streaming-Verarbeitung:
- Apache Flink: Echtzeitdatenverarbeitung mit niedriger Latenz.
- Apache Storm: Verteiltes Echtzeit-Computing-System.
- Kinesis (AWS): Plattform für Echtzeit-Datenstreams.
Datenkatalogisierung und –verwaltung
Zur Verwaltung von Daten und ihrer Metadaten werden spezielle Tools genutzt.
- Collibra: Plattform für Daten-Governance und Datenkataloge.
- Apache Atlas: Open-Source-Lösung für Metadatenmanagement.
- Alation: Tool zur Verwaltung von Datenkatalogen und -abfragen.
- AWS Glue Data Catalog: Automatische Erkennung und Katalogisierung von Daten in AWS.
Abfrage-Engines
Um Daten in einem Data Lake zu analysieren, werden spezialisierte SQL- und NoSQL-Engines verwendet.
- Presto/Trino: SQL-Engine für verteilte Abfragen in großen Data Lakes.
- Athena (AWS): Serverloser Dienst zur SQL-Abfrage von Daten in Amazon S3.
- Google BigQuery: Analyse großer Datenmengen in Google Cloud.
- Dremio: Plattform für Self-Service-Analysen auf Data Lakes.
Sicherheits- und Zugriffskontrolltools
Da Data Lakes oft sensible Informationen speichern, sind Sicherheitslösungen essenziell.
- MinIO: Hochleistungsfähiger Objektspeicher, häufig als Alternative zu Cloud-Diensten.
- AWS IAM (Identity and Access Management): Zugriffskontrolle und Berechtigungen in AWS.
- Apache Ranger: Open-Source-Tool für Sicherheitsrichtlinien und Zugriffskontrolle.
- Azure Active Directory: Verwaltung von Identitäten und Zugriffsrechten in Azure.
- Data Encryption: Technologien wie AWS KMS, Azure Key Vault und HashiCorp Vault werden für die Verschlüsselung verwendet.
Orchestrierung und Workflow-Management
Automatisierungs- und Workflow-Tools steuern die Abläufe innerhalb eines Data Warehouses.
- Apache Airflow: Open-Source-Orchestrierung von Workflows.
- AWS Step Functions: Orchestrierung von datengetriebenen Workflows in AWS
- Prefect: Moderne Plattform für Datenorchestrierung.
Machine Learning und KI
Data Lakes sind häufig die Basis für KI- und Machine-Learning-Anwendungen.
- TensorFlow: Open-Source-Framework für Machine Learning.
- PyTorch: Beliebtes Framework für Deep Learning.
- Databricks: Plattform für Data Engineering, Data Science und Machine Learning.
- SageMaker (AWS): Cloud-Plattform für die Entwicklung und Bereitstellung von Machine-Learning-Modellen.
Visualisierung und Business Intelligence
Data Lakes ermöglichen die Analyse und Visualisierung großer Datenmengen in interaktiven Dashboards und Berichten.
- Tableau: Visualisierung großer und heterogener Datensätze.
- Power BI: Business-Intelligence-Tool von Microsoft.
- Qlik Sense: Plattform für Datenanalyse und Dashboards.
- Google Data Studio: Visualisierung von Daten in der Google Cloud.
Monitoring und Optimierung
Überwachung und Optimierung sind essenziell für die Effizienz eines Data Lakes.
- Prometheus: Monitoring und Alarmierung für Big-Data-Systeme.
- Grafana: Visualisierung von Leistungsmetriken und Dashboards.
- Datadog: Monitoring-Lösung für Cloud-Umgebungen.
- AWS CloudWatch: Überwachung von Ressourcen und Diensten in AWS.
Data-Warehouse-Architektur
In der Data Lake Architektur wird auf eine Unterteilung in Staging Area, Core DWH und Data Marts verzichtet, da bei dieser Architektur die Datenstrukturen vor der Beladung schon festgelegt werden (“schema on write”). Ein Data Lake folgt dem Ansatz “schema on read”, bei dem die Analysestrukturen erst während der Nutzung der Daten erfolgt. Die Daten fließen somit zunächst in den Originalstrukturen in den Data Lake.
In der Data Lake Architektur wird auf eine Unterteilung in Staging Area, Core DWH und Data Marts verzichtet, da bei dieser Architektur die Datenstrukturen vor der Beladung schon festgelegt werden (“schema on write”). Ein Data Lake folgt dem Ansatz “schema on read”, bei dem die Analysestrukturen erst während der Nutzung der Daten erfolgt. Die Daten fließen somit zunächst in den Originalstrukturen in den Data Lake.
Zunächst werden die Daten aus Quellsystemen wie zuvor im Data Lake in den Object Store geladen. Basierend auf diesem Object Store werden die Daten in “Open Table Formats” transformiert. Dadurch können auf strukturierte Daten mit SQL-Sprache zugegriffen werden. Dies erfolgt in den Schichten “Bronze”, “Silver” und “Gold”. Diese entsprechen dem Stage-, Core und dem Data Mart Layer in der Data Warehouse Architektur. Somit finden wir in der klassischen Data Lakehouse-Architektur den Data Lake und das Data Warehouse integriert in einer technisch aufeinander abgestimmten Umgebung.
Moderne Data Warehouse Plattformen
Zunächst werden die Daten aus Quellsystemen wie zuvor im Data Lake in den Object Store geladen. Basierend auf diesem Object Store werden die Daten in “Open Table Formats” transformiert. Dadurch können auf strukturierte Daten mit SQL-Sprache zugegriffen werden. Dies erfolgt in den Schichten “Bronze”, “Silver” und “Gold”. Diese entsprechen dem Stage-, Core und dem Data Mart Layer in der Data Warehouse Architektur. Somit finden wir in der klassischen Data Lakehouse-Architektur den Data Lake und das Data Warehouse integriert in einer technisch aufeinander abgestimmten Umgebung.

- Delta Lake als Kerntechnologie.
- Unterstützung für Batch- und Streaming-Daten.
- Nahtlose Integration mit Tools wie Power BI und Tableau.
- Stark auf Machine Learning und KI optimiert.

Snowflake wird oft als Cloud Data Warehouse bezeichnet, hat aber durch die Unterstützung von unstrukturierten Daten zunehmend Lakehouse-Funktionen integriert.
- Cloud-nativ mit Multi-Cloud-Unterstützung (AWS, Azure, Google Cloud).
- Unterstützung für semi-strukturierte Daten (z. B. JSON, Parquet).
- Leistungsstarke Data-Sharing-Funktionen.
- Skalierbarkeit ohne Ausfallzeiten.

- Integration mit Google Cloud Storage als Data Lake.
- SQL-Abfragen auf riesigen Datenmengen.
- Unterstützung von maschinellem Lernen durch BigQuery ML.
- Geringe Latenzzeiten für Analysen.

Azure Synapse verbindet Data Warehousing und Big Data-Analysen in einer Plattform.
- Integration mit Azure Data Lake.
- Unterstützung für Spark-basierte Analysen
- Nahtlose Verbindung zu Power BI.
- Unterstützung von T-SQL für Abfragen.
Amazon Web Services kombiniert Amazon S3 als Data Lake mit Amazon Redshift als Data Warehouse, um eine Lakehouse-Architektur zu schaffen.
- Datenaufbereitung und -katalogisierung mit AWS Lake Formation.
- Erweiterte Analytics mit Redshift Spectrum.
- Integration mit anderen AWS-Services (Glue, Athena, SageMaker).

Dremio ist eine spezialisierte Lakehouse-Plattform, die den Zugriff auf Daten in Data Lakes vereinfacht und beschleunigt.
- SQL-Abfragen direkt auf Data Lakes.
- Optimierung durch einen „Query Accelerator“.
- Unterstützung von offenen Formaten wie Parquet und ORC.

Diese Open-Source-Projekte bieten Lakehouse-Funktionalitäten für Unternehmen, die ihre eigene Infrastruktur nutzen möchten.
Merkmale:
- Iceberg: Spaltenbasierte Speicherverwaltung, Transaktionen, und Time-Travel-Abfragen.
- Hudi: Unterstützung für Upserts und effiziente Datenverarbeitung in Data Lakes.

Cloudera kombiniert Data Lake und Data Warehouse in einer hybriden Plattform.
Merkmale:
- On-Premise- und Cloud-Unterstützung.
- Integration von Apache Hadoop, Spark und Hive.
- Governance- und Sicherheitsfunktionen.
Data Warehouse vs. Data Lake vs. Data Lakehouse
Data Warehouse, Data Lake und Data Lakehouse sind drei Ansätze zur Speicherung und Verarbeitung großer Datenmengen. Während ein Data Warehouse strukturierte Daten für Analysen optimiert, speichert ein Data Lake Rohdaten in jeder Form. Das Data Lakehouse kombiniert beide Konzepte, um Flexibilität und Performance zu vereinen.
Data Warehouse | Data Lake | Data Lakehouse | |
---|---|---|---|
Datenspeicherung | Strukturierte Daten In-memory & spaltenbasiert Data-Vault- & dimensionale Modellierung Potenziell teure Speicherung | Unstrukturierte Daten Cloud-Speicher & dateibasiert Kein generisches Datenmodell Günstige Speicherung | Strukturierte & unstrukturierte Daten Cloud-Speicher & dateibasiert Data-Vault- & dimensionale Modellierung Günstige Speicherung |
Datennutzung | Enterprise-ready Reporting SQL-Interface, Reporting-Tools Low-Code / No-Code möglich Hohe Abfrageperformance & geringe Latenz | Advanced Analytics, Data Science Machine Learning & KI Code-Only | Integration von DWH und DL SQL-, Python- & R-Interface, Reporting-Tools Hohe Virtualisierung verringert Abfrageperformance |
Datenverarbeitung | Ein Hauptspeicher mit fester Größe Schema-on-write ETL & ELT CRUD-Operationen ACID-Transaktionen | Ausschließlich Speicher ohne Verarbeitung Schema-on-read | Parallele & skalierbare Verarbeitung getrennt vom Speicher Schema-on-read CRUD-Operationen ACID-Transaktionen |
Datenverwaltung | Single Source of Truth (SSOT) Zentrale Steuerung & Governance Row- & Column-Level Security (RCLS) | Keine zentrale Steuerung Keine SSOT Keine RCLS | Umfassendes Berechtigungskonzept SSOT RCLS |
Data Warehouse
Datenspeicherung. Ein Data Warehouse hält strukturierte Daten in einem spaltenbasierten In-Memory-Format vor. Dabei kommen sowohl Data-Vault- als auch dimensionale Modelle zum Einsatz, was eine analytisch optimierte Ablage garantiert – allerdings bei tendenziell höheren Speicherkosten.
Datennutzung. Der Fokus liegt auf unternehmensweitem Reporting: Über ein SQL-Interface lassen sich gängige Reporting-Tools sowie Low- oder No-Code-Plattformen anschließen. Dadurch erreicht das System eine hohe Abfrageperformance mit minimaler Latenz, selbst bei komplexen Analysen.
Datenverarbeitung. Die Verarbeitung erfolgt in einem Hauptspeicher fester Größe nach dem Schema-on-write-Prinzip. Klassische ETL- und ELT-Pipelines unterstützen CRUD-Operationen und gewährleisten ACID-Transaktionen, sodass Daten konsistent und zuverlässig bleiben.
Datenverwaltung. Als Single Source of Truth (SSOT) bietet das Data Warehouse eine zentrale Governance mit fein granularer Row- und Column-Level-Security (RCLS). Dadurch lassen sich Zugriffsrechte präzise steuern und Compliance-Vorgaben sicher einhalten.
Data Lakehouse
Datenspeicherung. Ein Data Lake legt vornehmlich unstrukturierte Daten in kostengünstigen, dateibasierten Cloud-Speichern ab. Da kein generisches Datenmodell erzwungen wird, lassen sich Daten beliebiger Formate und Quellen flexibel aufnehmen und später bedarfsgerecht strukturieren.
Datennutzung. Die Umgebung ist auf Advanced Analytics, Data Science sowie Machine-Learning- und KI-Workloads ausgerichtet. Abfragen und Analysen erfolgen typischerweise „code-only“ in Python, R oder ähnlichen Sprachen, wodurch sich komplexe Modelle und Experimente ohne zusätzliche Schichten realisieren lassen.
Datenverarbeitung. Der Lake fungiert ausschließlich als Speicher; Rechenressourcen werden bei Bedarf über externe Cluster zugeschaltet. Analysen laufen nach dem Schema-on-read-Prinzip, sodass Daten erst beim Auslesen interpretiert und in das gewünschte Format gebracht werden.
Datenverwaltung. Governance ist projekt- oder teamspezifisch organisiert: Es gibt keine zentrale Steuerung, keinen „Single Source of Truth“ und keine Row- oder Column-Level-Security (RCLS). Sicherheits- und Compliance-Anforderungen müssen daher individuell implementiert werden.
Data Lake
Datenspeicherung: Ein Data Lakehouse kombiniert die Vorteile von Warehouse und Lake, indem es sowohl strukturierte als auch unstrukturierte Daten kostengünstig in dateibasierten Cloud-Speichern ablegt. Trotz dieser flexiblen Ablage unterstützt es Data-Vault- und dimensionale Modellierungsansätze, sodass analytische Strukturen schnell bereitstehen.
Datennutzung: Durch die nahtlose Integration von Data Warehouse und Data Lake vereint das Lakehouse klassische BI- und moderne Data-Science-Workloads. Nutzer greifen wahlweise über SQL-, Python- oder R-Schnittstellen beziehungsweise über gängige Reporting-Tools zu. Die starke Virtualisierung dieser Mischumgebung ermöglicht große Freiheit, kann jedoch die Abfrageperformance im Vergleich zu reinem Warehouse-Betrieb leicht senken.
Datenverarbeitung: Rechencluster verarbeiten Daten parallel und skalierbar, sind dabei aber physisch vom Speicher getrennt. Dank Schema-on-read lassen sich Daten bei Bedarf flexibel interpretieren; gleichzeitig unterstützen die Engines CRUD-Operationen und ACID-Transaktionen, sodass Konsistenz und Zuverlässigkeit gewahrt bleiben.
Datenverwaltung: Ein umfassendes Berechtigungskonzept etabliert das Lakehouse als Single Source of Truth (SSOT) und bietet feingranulare Row- und Column-Level-Security (RCLS). Damit lassen sich Governance- und Compliance-Anforderungen zentral und effizient umsetzen.
Webinar
Das Data Lakehouse – Ein Anwendungsfall in Databricks und SAP Datasphere
Im Webinar führen wir Sie anhand eines konkreten Anwendungsfalls mit Azure Databricks und SAP Datasphere durch ein mögliches Vorgehen. Zudem geben wir einen Ausblick auf zukünftige Entwicklungen und zeigen auf, wie das Konzept dazu beiträgt, datengetriebene Entscheidungen effizienter und kostengünstiger zu gestalten.
Data Lake(house) mit ISR
Wenn man ehrlich ist, gibt es in der IT- und Analytics-Welt immer wieder Schlagworte, die in aller Munde sind, die aber keine echte Bedeutung haben und nicht zu einer echten Änderung der Vorgehensweisen führen. Bei Data Lake und Data Lakehouse ist es anders. Ein Data Lake macht zwar aus 1000km Flughöhe nichts anderes als ein Data Warehouse: Er speichert Daten und stellt sie für Analysen zur Verfügung. Wenn man aber etwas genauer hinschaut, ist vieles anders und es lohnt sich, für die eigene spezielle Umgebung zu betrachten, ob und wofür man einen Data Lake einsetzen möchte. Ein erster Schritt ist daher in vielen Kundensituationen die Aufnahme der entsprechenden Use Cases und Anforderungen:
- Wer könnte einen Data Lake nutzen?
- Welche Daten könnte man darin sammeln?
- Welche Analyse-Formen wären darauf möglich?
- Gibt es bereits Ideen, die auf einem Data Lake umsetzbar wären?
- Kann man den Data Lake mit einem DWH integrieren und Teile der DWH-Architektur ablösen?
An dieser Stelle ist aber Vorsicht geboten, denn ein Data Lake dient häufig gerade zur Unterstützung innovativer oder sogar disruptiver Ansätze. Innovation ist nicht planbar und der Data Lake als Infrastruktur soll gerade die agile und explorative Suche nach unbekannten Wertpotentialen in Daten ermöglichen. Mit dem Einsatz eines Data Lakes geht also häufig ein Paradigmenwechsel bei der Datennutzung einher. Von der planbaren Umsetzung strukturierter und standardisierter Reportings wechselt man zu datengetriebenen Innovationsprozessen, die maximal auf Hypothesen aufsetzen, aber oft auch „ins Blaue hinein“ forschen. Dieser Ansatz bedingt häufig Änderungen in Governance und Organisation. In unseren Projekten begleiten wir auf Wunsch auch den initialen Prozess der Ideenfindung und der strategischen Anpassungen. Nur die Frage der Amortisation ist fast nie ex ante zu beantworten. Denn die werthaltigsten Innovationen sind die, die erst durch den Einsatz des datengetriebenen Vorgehens auf dem Data Lake entdeckt werden. Hier sind also strategischer Mut und Weitsicht gefragt.
Data & Analytics-Beratung mit ISR
Warum Sie auf uns setzen sollten!
Sie suchen nach einem Partner auf Ihrem Weg zur Data Driven Company? Wir stehen Ihnen mit unserer langjährigen Expertise im Data & Analytics Consulting zur Seite! Mit einem tiefgreifenden Verständnis für Business Analytics begleiten wir Sie von der Strategie bis zur Umsetzung. Unsere erfahrenen Data Analytics Consultants ermöglichen Ihnen, Potenziale zu entdecken und strategische Entscheidungen auf eine solide Datenbasis zu stellen. Aufgrund unserer langjährigen Partnerschaften mit SAP, IBM und Microsoft beraten wir Sie gerne herstellerneutral und technologieübergreifend.
Das bieten wir auch an.
Weitere Beratungsseiten
Lesen Sie mehr im ISR-Blog
Wertvolle Inhalte zum Thema Data Lake

SAP Business Data Cloud – Revolution oder nur ein weiteres Upgrade?
Mit der Ankündigung der SAP Business Data Cloud (BDC) setzt SAP einen neuen Meilenstein in …

Das Data Lakehouse – Die Zukunft der Datenverwaltung?
Das data lakehouse ist ein ansatz, der das potenzial hat, das datenmanagement für Business Intelligence …

Data Mesh und Data Fabric – Freunde oder Feinde?
Beim Data Mesh agiert die IT-Abteilung als Plattformanbieter für Analytics-Werkzeuge und Standards, die Fachbereiche nutzen …

Wie sieht die aktuelle SAP Data Warehouse Strategie aus?
Mit SAP BW/4HANA, SAP HANA SQL Data Warehousing und SAP Datasphere bietet SAP drei verschiedene …
Nehmen Sie jetzt Kontakt auf
Wir beraten Sie gerne!
Nutzen Sie die langjährige Expertise unserer Data-Analytics-Consultants, um Ihre Datenstrategie zukunftssicher zu gestalten. Lassen Sie uns gemeinsam maßgeschneiderte Data-Analytics-Lösungen entwickeln, die Ihr Unternehmen nachhaltig für die Zukunft vorbereiten. Kontaktieren Sie uns gerne für ein unverbindliches Erstgespräch.

Wilhelm Hardering
Senior Executive Manager