Data Lake

Data Lake
Zentrale Plattform für moderne Datenstrategien

Ein Data Lake ist eine zentrale Plattform zur Speicherung und Analyse großer Datenmengen. Er ermöglicht Unternehmen, strukturierte und unstrukturierte Daten effizient zu verwalten, flexibel zu verarbeiten und für Analysen bereitzustellen. Durch die Skalierbarkeit und Kostenersparnis eines Data Lakes spielt es eine zentrale Rolle in datengetriebenen Geschäftsmodellen.

Was ist ein Data Lake? Eine Definition

Ein Data Lake bildet neben dem Data Warehouse ein zentrales Fundament für ein datengetriebenes Unternehmen. Data Warehouse und Data Lake sind dabei als logische Einheit zu sehen, die sich technisch und funktional abgrenzen. Ein Data Lake ist eine zentrale Speicherplattform, die große Mengen an Daten in seinem Rohformat aufnimmt, speichert und verwaltet. Es handelt sich um ein flexibles und skalierbares Repository, das sowohl strukturierte, semi-strukturierte als auch unstrukturierte Daten aufnimmt. Die Daten werden in einem Data Lake ohne vorherige Transformation oder Modellierung gespeichert, was ihn von traditionellen Datenbanken oder Data Warehouses unterscheidet.

Hauptmerkmale Data Lake

Daten werden in ihrem ursprünglichen Zustand gespeichert, ohne dass sie vorab verarbeitet oder strukturiert werden müssen. Das ermöglicht eine flexible Nutzung, da unterschiedliche Analysen auf demselben Datenbestand durchgeführt werden können. 

Unterstützt strukturierte Daten (z. B. Tabellen), semi-strukturierte Daten (z. B. JSON, XML) und unstrukturierte Daten (z. B. Videos, Bilder, Audio, Log-Dateien).

Data Lakes sind häufig in der Cloud implementiert und können nahezu unbegrenzt wachsen, was sie ideal für Big-Data-Anwendungen macht.

Im Vergleich zu Data Warehouses ist die Speicherung in einem Data Lake in der Regel günstiger, da Daten in ihrem Rohzustand gespeichert werden und keine teuren Datenmodelle oder Transformationen erforderlich sind. Der Speicher ist häufig Object Storage, der große Datenmengen kostengünstig in Buckets ablegt.

Daten können jederzeit verarbeitet, analysiert und in verschiedenen Formaten extrahiert werden, z. B. für Machine Learning, KI-Analysen oder Echtzeitanwendungen. 

Beide Ansätze bieten Vorteile, die sich stark ergänzen. Ein Data Lakehouse ist somit eine folgerichtige Weiterentwicklung der Datenarchitektur, die die Stärken von Data Lakes und Data Warehouses vereint. Es ist besonders geeignet für Unternehmen, die große und vielfältige Datenmengen effizient speichern, verarbeiten und analysieren möchten, ohne dabei die Konsistenz und Zuverlässigkeit traditioneller Systeme zu opfern.

Ein Data Lake bildet neben dem Data Warehouse ein zentrales Fundament für ein datengetriebenes Unternehmen. Data Warehouse und Data Lake sind dabei als logische Einheit zu sehen, die sich technisch und funktional abgrenzen. Ein Data Lake ist eine zentrale Speicherplattform, die große Mengen an Daten in seinem Rohformat aufnimmt, speichert und verwaltet. Es handelt sich um ein flexibles und skalierbares Repository, das sowohl strukturierte, semi-strukturierte als auch unstrukturierte Daten aufnimmt. Die Daten werden in einem Data Lake ohne vorherige Transformation oder Modellierung gespeichert, was ihn von traditionellen Datenbanken oder Data Warehouses unterscheidet.


Hauptmerkmale eines Data Lakes:

    1. Rohdatenformat: Daten werden in ihrem ursprünglichen Zustand gespeichert, ohne dass sie vorab verarbeitet oder strukturiert werden müssen. Das ermöglicht eine flexible Nutzung, da unterschiedliche Analysen auf demselben Datenbestand durchgeführt werden können.

 

    1. Vielfalt der Datentypen: Unterstützt strukturierte Daten (z. B. Tabellen), semi-strukturierte Daten (z. B. JSON, XML) und unstrukturierte Daten (z. B. Videos, Bilder, Audio, Log-Dateien).

 

    1. Skalierbarkeit: Data Lakes sind häufig in der Cloud implementiert und können nahezu unbegrenzt wachsen, was sie ideal für Big-Data-Anwendungen macht.

 

    1. Geringe Kosten: Im Vergleich zu Data Warehouses ist die Speicherung in einem Data Lake in der Regel günstiger, da Daten in ihrem Rohzustand gespeichert werden und keine teuren Datenmodelle oder Transformationen erforderlich sind. Der Speicher ist häufig Object Storage, der große Datenmengen kostengünstig in Buckets ablegt.

 

    1. Flexibilität bei der Datenanalyse: Daten können jederzeit verarbeitet, analysiert und in verschiedenen Formaten extrahiert werden, z. B. für Machine Learning, KI-Analysen oder Echtzeitanwendungen.

 

Beide Ansätze bieten Vorteile, die sich stark ergänzen. Ein Data Lakehouse ist somit eine folgerichtige Weiterentwicklung der Datenarchitektur, die die Stärken von Data Lakes und Data Warehouses vereint. Es ist besonders geeignet für Unternehmen, die große und vielfältige Datenmengen effizient speichern, verarbeiten und analysieren möchten, ohne dabei die Konsistenz und Zuverlässigkeit traditioneller Systeme zu opfern.

Das Data Lakehouse – Ein Anwendungsfall in Databricks und SAP Datasphere

In diesem Whitepaper erklären wir Ihnen anhand von Beispieldaten Schritt für Schritt den Aufbau eines Data Lakehouse mithilfe von SAP Datasphere und Databricks und diskutieren, warum besonders im Geschäftskontext vieler deutscher Unternehmen die Nutzung eines Lakehouse sinnvoll ist.

Vorteile eines Data Lakes

Ein Data Lake bietet Ihnen eine kosteneffiziente, flexible und skalierbare Lösung zur Speicherung und Analyse großer und vielfältiger Datenmengen. Er ist besonders nützlich für moderne datenintensive Anwendungen wie Big Data, KI, Machine Learning und Echtzeitanalysen. Data Lakes bieten folgende Vorteile:

Flexibel & skalierbar

Speichert strukturierte und unstrukturierte Daten in Rohform – ohne vorherige Transformation. Einfaches Hinzufügen neuer Datentypen und horizontale Skalierung möglich.

Kosteneffizienz

Geringe Speicher- und Betriebskosten durch Cloud-Technologien. Ideal für große Datenmengen wie IoT- oder Streamingdaten.

Zentrale Plattform

Bündelt Daten aus unterschiedlichen Quellen (CRM, ERP, IoT etc.) für unternehmensweite Nutzung und vereinheitlichte Analyse

Echtzeitfähig & analytisch stark

Integriert Streaming-Technologien wie Apache Kafka oder Flink. Unterstützt moderne Analyse- und Machine-Learning-Tools direkt auf Rohdaten.

Schema-on-Read

Flexibilität bei der Datenanalyse: Strukturen werden erst beim Lesen angewendet – perfekt für explorative Analysen.

Zugänglich für alle Nutzergruppen

Ob Business-Analyst:innen, Entwickler:innen oder Data Scientists – alle greifen auf dieselbe Datenbasis zu, je nach Bedarf und Tools.

Langfristige Speicherung & Integration

Beliebig große Datenmengen können dauerhaft gespeichert und mit Cloud- sowie Big-Data-Technologien wie Spark, Hadoop oder Presto genutzt werden.

Flexibilität bei der Datenspeicherung

Ein Data Lake kann Daten in ihrer Rohform speichern, unabhängig von ihrer Struktur.

  • Unterstützung für strukturierte, semistrukturierte und unstrukturierte Daten (z. B. Tabellen, JSON-Dateien, Bilder, Videos, Logs).
  • Keine Notwendigkeit, Daten vor dem Speichern zu transformieren.
  • Einfaches Hinzufügen neuer Datentypen ohne Änderung der Architektur.

Kosteneffizienz

Data Lakes nutzen kostengünstige Speicherlösungen, oft auf Cloud-Basis.

  • Skalierbarkeit bei geringen Kosten.

  • Ideal für die Speicherung großer Datenmengen, z. B. IoT-Daten, Streaming-Daten oder historische Daten.
  • Reduzierung der Speicherkosten im Vergleich zu traditionellen Data Warehouses.

Skalierbarkeit

Ein Data Lake ist für die Speicherung und Verarbeitung riesiger Datenmengen ausgelegt.

  • Horizontale Skalierung bei wachsendem Datenvolumen.
  • Geeignet für Big-Data-Anwendungen und Echtzeit-Datenströme.

Unterstützung für moderne Analysen

Data Lakes ermöglichen die Nutzung moderner Datenanalyse- und Machine-Learning-Methoden.

  • Einfacher Zugriff für Data Scientists und KI-Entwickler.
  • Unterstützung von Machine-Learning-Frameworks wie TensorFlow, PyTorch oder Spark MLlib.
  • Ermöglicht die Entwicklung von Algorithmen direkt auf den Rohdaten.

Zentrale Datenplattform

Ein Data Lake dient als zentraler Speicherort für Daten aus unterschiedlichen Quellen.

  • Integration heterogener Datenquellen (z. B. CRM, ERP, IoT-Geräte, Social Media).
  • Eine einzige Plattform für die Speicherung und Analyse, unabhängig von der Quelle oder Struktur der Daten.
  • Ermöglicht die Vereinheitlichung von Daten für unternehmensweite Nutzung.

Unterstützung für Schema-on-Read

Daten können beim Lesen strukturiert und analysiert werden, anstatt beim Schreiben.

  • Flexibilität bei der Datenanalyse, da unterschiedliche Nutzer verschiedene Schemata anwenden können.
  • Daten müssen nicht vor der Speicherung aufwendig transformiert werden.
  • Ermöglicht explorative Analysen und unterschiedliche Verarbeitungsmethoden.

Unterstützung für Echtzeitdaten

Moderne Data Lakes können Streamingdaten und Echtzeitquellen integrieren.

  • Verarbeitung von Live-Datenströmen für Anwendungen wie Betrugserkennung, IoT-Analysen oder Echtzeit-Dashboards.
  • Integration von Technologien wie Apache Kafka oder Flink.

Demokratisierung von Daten

Ein Data Lake ermöglicht einen breiten Zugang zu Daten im Unternehmen.

  • Daten sind für verschiedene Abteilungen zugänglich, z. B. Marketing, Finanzen oder IT.
  • Förderung einer datengetriebenen Unternehmenskultur.
  • Selbstbedienung für Analysten und Data Scientists ohne starke Abhängigkeit von IT-Abteilungen.

Langfristige Speicherung historischer Daten

Data Lakes speichern Daten unbegrenzt, auch wenn sie aktuell nicht benötigt werden.

  • Historische Daten stehen für zukünftige Analysen und Machine-Learning-Modelle zur Verfügung.
  • Keine Einschränkungen durch Speicherplatz oder Kosten wie bei anderen Systemen.

Integration mit Big Data und Cloud-Technologien

Data Lakes arbeiten nahtlos mit modernen Big-Data-Technologien zusammen.

  • Nutzung von Hadoop, Spark, Presto und anderen Big-Data-Frameworks.
  • Skalierbare Cloud-Speicherlösungen wie Amazon S3, Azure Data Lake oder Google Cloud Storage.

Unterstützung für verschiedene Nutzergruppen

Ein Data Lake kann von unterschiedlichen Nutzertypen genutzt werden.

  • Business-Analysten: Zugriff auf strukturierte Daten für Berichte.
  • Data Scientists: Nutzung von Rohdaten für explorative Analysen.
  • Entwickler: Nutzung der Daten für Anwendungen und Algorithmen.

Unterstützung für verschiedene Nutzergruppen

Daten können beim Lesen strukturiert und analysiert werden, anstatt beim Schreiben.

  • Flexibilität bei der Datenanalyse, da unterschiedliche Nutzer verschiedene Schemata anwenden können.
  • Daten müssen nicht vor der Speicherung aufwendig transformiert werden.
  • Ermöglicht explorative Analysen und unterschiedliche Verarbeitungsmethoden.

Einsatzszenarien eines Data Lake

Data Lakes bieten eine flexible und skalierbare Lösung für die Speicherung und Verarbeitung großer und vielfältiger Datenmengen. Sie sind besonders geeignet für verschiedene datenintensive Anwendungsfälle. Hier sind die wichtigsten Einsatzszenarien für Data Lakes:

Welche Tools und Technologien gibt es?

Ein Data Lake basiert auf einer Vielzahl moderner Technologien, die nahtlos zusammenarbeiten, um große und vielfältige Datenmengen zu speichern, zu integrieren, zu analysieren und zu sichern. Die Auswahl der Tools hängt von den spezifischen Anforderungen ab, wie der Art der Daten (strukturiert, unstrukturiert), dem gewünschten Anwendungsfall (Batch- oder Echtzeitverarbeitung) und der bevorzugten Infrastruktur (Cloud oder On Premise).

Data-Warehouse-Architektur

In der Data Lake Architektur wird auf eine Unterteilung in Staging Area, Core DWH und Data Marts verzichtet, da bei dieser Architektur die Datenstrukturen vor der Beladung schon festgelegt werden (“schema on write”). Ein Data Lake folgt dem Ansatz “schema on read”, bei dem die Analysestrukturen erst während der Nutzung der Daten erfolgt. Die Daten fließen somit zunächst in den Originalstrukturen in den Data Lake.

In der Data Lake Architektur wird auf eine Unterteilung in Staging Area, Core DWH und Data Marts verzichtet, da bei dieser Architektur die Datenstrukturen vor der Beladung schon festgelegt werden (“schema on write”). Ein Data Lake folgt dem Ansatz “schema on read”, bei dem die Analysestrukturen erst während der Nutzung der Daten erfolgt. Die Daten fließen somit zunächst in den Originalstrukturen in den Data Lake.

Zunächst werden die Daten aus Quellsystemen wie zuvor im Data Lake in den Object Store geladen. Basierend auf diesem Object Store werden die Daten in “Open Table Formats” transformiert. Dadurch können auf strukturierte Daten mit SQL-Sprache zugegriffen werden. Dies erfolgt in den Schichten “Bronze”, “Silver” und “Gold”. Diese entsprechen dem Stage-, Core und dem Data Mart Layer in der Data Warehouse Architektur. Somit finden wir in der klassischen Data Lakehouse-Architektur den Data Lake und das Data Warehouse integriert in einer technisch aufeinander abgestimmten Umgebung.

Moderne Data Warehouse Plattformen

Zunächst werden die Daten aus Quellsystemen wie zuvor im Data Lake in den Object Store geladen. Basierend auf diesem Object Store werden die Daten in “Open Table Formats” transformiert. Dadurch können auf strukturierte Daten mit SQL-Sprache zugegriffen werden. Dies erfolgt in den Schichten “Bronze”, “Silver” und “Gold”. Diese entsprechen dem Stage-, Core und dem Data Mart Layer in der Data Warehouse Architektur. Somit finden wir in der klassischen Data Lakehouse-Architektur den Data Lake und das Data Warehouse integriert in einer technisch aufeinander abgestimmten Umgebung.

DataBricks Logo
Databricks ist eine der bekanntesten Lakehouse-Plattformen und basiert auf Apache Spark. Es bietet eine einheitliche Plattform für Datenverarbeitung, Machine Learning und Business Intelligence (BI).
  •  Delta Lake als Kerntechnologie. 
  • Unterstützung für Batch- und Streaming-Daten. 
  • Nahtlose Integration mit Tools wie Power BI und Tableau. 
  • Stark auf Machine Learning und KI optimiert. 
snowflake

Snowflake wird oft als Cloud Data Warehouse bezeichnet, hat aber durch die Unterstützung von unstrukturierten Daten zunehmend Lakehouse-Funktionen integriert.

  • Cloud-nativ mit Multi-Cloud-Unterstützung (AWS, Azure, Google Cloud). 
  • Unterstützung für semi-strukturierte Daten (z. B. JSON, Parquet).
  • Leistungsstarke Data-Sharing-Funktionen.
  • Skalierbarkeit ohne Ausfallzeiten.
google_bigquery_logo_icon_168151
BigQuery, Teil der Google Cloud Platform, ist eine serverlose Data-Warehouse-Lösung mit Lakehouse-Funktionen.
  • Integration mit Google Cloud Storage als Data Lake.
  • SQL-Abfragen auf riesigen Datenmengen.
  • Unterstützung von maschinellem Lernen durch BigQuery ML.
  • Geringe Latenzzeiten für Analysen.
ec03efe6-1e00-4bb6-8623-913638a85e70

Azure Synapse verbindet Data Warehousing und Big Data-Analysen in einer Plattform.

  • Integration mit Azure Data Lake.
  • Unterstützung für Spark-basierte Analysen
  • Nahtlose Verbindung zu Power BI.
  • Unterstützung von T-SQL für Abfragen.
Aws-Lake-Formation--Streamline-Svg-Logos

Amazon Web Services kombiniert Amazon S3 als Data Lake mit Amazon Redshift als Data Warehouse, um eine Lakehouse-Architektur zu schaffen.

  • Datenaufbereitung und -katalogisierung mit AWS Lake Formation. 
  • Erweiterte Analytics mit Redshift Spectrum.
  • Integration mit anderen AWS-Services (Glue, Athena, SageMaker).
96cfdb01-cd85-4c29-98f0-8e10091140b3

Dremio ist eine spezialisierte Lakehouse-Plattform, die den Zugriff auf Daten in Data Lakes vereinfacht und beschleunigt.

  • SQL-Abfragen direkt auf Data Lakes.
  • Optimierung durch einen „Query Accelerator“.
  • Unterstützung von offenen Formaten wie Parquet und ORC.
Logo Apache Hudi

Diese Open-Source-Projekte bieten Lakehouse-Funktionalitäten für Unternehmen, die ihre eigene Infrastruktur nutzen möchten.

Merkmale:

  • Iceberg: Spaltenbasierte Speicherverwaltung, Transaktionen, und Time-Travel-Abfragen.
  • Hudi: Unterstützung für Upserts und effiziente Datenverarbeitung in Data Lakes.
Logo Cloudera Data Platform (CDP)

Cloudera kombiniert Data Lake und Data Warehouse in einer hybriden Plattform.

Merkmale:

  • On-Premise- und Cloud-Unterstützung.
  • Integration von Apache Hadoop, Spark und Hive.
  • Governance- und Sicherheitsfunktionen.

Data Warehouse vs. Data Lake vs. Data Lakehouse

Data Warehouse, Data Lake und Data Lakehouse sind drei Ansätze zur Speicherung und Verarbeitung großer Datenmengen. Während ein Data Warehouse strukturierte Daten für Analysen optimiert, speichert ein Data Lake Rohdaten in jeder Form. Das Data Lakehouse kombiniert beide Konzepte, um Flexibilität und Performance zu vereinen.

Data Warehouse Data Lake Data Lakehouse
Datenspeicherung Strukturierte Daten​ In-memory & spaltenbasiert​ Data-Vault- & dimensionale Modellierung​ Potenziell teure Speicherung Unstrukturierte Daten​ Cloud-Speicher & dateibasiert​ Kein generisches Datenmodell​ Günstige Speicherung Strukturierte & unstrukturierte Daten​ Cloud-Speicher & dateibasiert​ Data-Vault- & dimensionale Modellierung​ Günstige Speicherung
Datennutzung Enterprise-ready Reporting​ SQL-Interface, Reporting-Tools​ Low-Code / No-Code möglich​ Hohe Abfrageperformance & geringe Latenz Advanced Analytics, Data Science​ Machine Learning & KI​ Code-Only Integration von DWH und DL​ SQL-, Python- & R-Interface, Reporting-Tools​ Hohe Virtualisierung verringert Abfrageperformance
Datenverarbeitung Ein Hauptspeicher mit fester Größe​ Schema-on-write​ ETL & ELT​ CRUD-Operationen​ ACID-Transaktionen Ausschließlich Speicher ohne Verarbeitung​ Schema-on-read Parallele & skalierbare Verarbeitung getrennt vom Speicher​ Schema-on-read​ CRUD-Operationen​ ACID-Transaktionen
Datenverwaltung Single Source of Truth (SSOT)​ Zentrale Steuerung & Governance​ Row- & Column-Level Security (RCLS) Keine zentrale Steuerung​ Keine SSOT​ Keine RCLS Umfassendes Berechtigungskonzept​ SSOT​ RCLS

Data Warehouse

Datenspeicherung. Ein Data Warehouse hält strukturierte Daten in einem spaltenbasierten In-Memory-Format vor. Dabei kommen sowohl Data-Vault- als auch dimensionale Modelle zum Einsatz, was eine analytisch optimierte Ablage garantiert – allerdings bei tendenziell höheren Speicherkosten.

Datennutzung. Der Fokus liegt auf unternehmensweitem Reporting: Über ein SQL-Interface lassen sich gängige Reporting-Tools sowie Low- oder No-Code-Plattformen anschließen. Dadurch erreicht das System eine hohe Abfrageperformance mit minimaler Latenz, selbst bei komplexen Analysen.

Datenverarbeitung. Die Verarbeitung erfolgt in einem Hauptspeicher fester Größe nach dem Schema-on-write-Prinzip. Klassische ETL- und ELT-Pipelines unterstützen CRUD-Operationen und gewährleisten ACID-Transaktionen, sodass Daten konsistent und zuverlässig bleiben.

Datenverwaltung. Als Single Source of Truth (SSOT) bietet das Data Warehouse eine zentrale Governance mit fein granularer Row- und Column-Level-Security (RCLS). Dadurch lassen sich Zugriffsrechte präzise steuern und Compliance-Vorgaben sicher einhalten.

Data Lakehouse

Datenspeicherung. Ein Data Lake legt vornehmlich unstrukturierte Daten in kostengünstigen, dateibasierten Cloud-Speichern ab. Da kein generisches Datenmodell erzwungen wird, lassen sich Daten beliebiger Formate und Quellen flexibel aufnehmen und später bedarfsgerecht strukturieren.

Datennutzung. Die Umgebung ist auf Advanced Analytics, Data Science sowie Machine-Learning- und KI-Workloads ausgerichtet. Abfragen und Analysen erfolgen typischerweise „code-only“ in Python, R oder ähnlichen Sprachen, wodurch sich komplexe Modelle und Experimente ohne zusätzliche Schichten realisieren lassen.

Datenverarbeitung. Der Lake fungiert ausschließlich als Speicher; Rechenressourcen werden bei Bedarf über externe Cluster zugeschaltet. Analysen laufen nach dem Schema-on-read-Prinzip, sodass Daten erst beim Auslesen interpretiert und in das gewünschte Format gebracht werden.

Datenverwaltung. Governance ist projekt- oder teamspezifisch organisiert: Es gibt keine zentrale Steuerung, keinen „Single Source of Truth“ und keine Row- oder Column-Level-Security (RCLS). Sicherheits- und Compliance-Anforderungen müssen daher individuell implementiert werden.

Data Lake

Datenspeicherung: Ein Data Lakehouse kombiniert die Vorteile von Warehouse und Lake, indem es sowohl strukturierte als auch unstrukturierte Daten kostengünstig in dateibasierten Cloud-Speichern ablegt. Trotz dieser flexiblen Ablage unterstützt es Data-Vault- und dimensionale Modellierungs­ansätze, sodass analytische Strukturen schnell bereitstehen.

Datennutzung: Durch die nahtlose Integration von Data Warehouse und Data Lake vereint das Lakehouse klassische BI- und moderne Data-Science-Workloads. Nutzer greifen wahlweise über SQL-, Python- oder R-Schnittstellen beziehungsweise über gängige Reporting-Tools zu. Die starke Virtualisierung dieser Mischumgebung ermöglicht große Freiheit, kann jedoch die Abfrageperformance im Vergleich zu reinem Warehouse-Betrieb leicht senken.

Datenverarbeitung: Rechen­cluster verarbeiten Daten parallel und skalierbar, sind dabei aber physisch vom Speicher getrennt. Dank Schema-on-read lassen sich Daten bei Bedarf flexibel interpretieren; gleichzeitig unterstützen die Engines CRUD-Operationen und ACID-Transaktionen, sodass Konsistenz und Zuverlässigkeit gewahrt bleiben.

Datenverwaltung: Ein umfassendes Berechtigungs­konzept etabliert das Lakehouse als Single Source of Truth (SSOT) und bietet fein­granulare Row- und Column-Level-Security (RCLS). Damit lassen sich Governance- und Compliance-Anforderungen zentral und effizient umsetzen.

Webinar

Das Data Lakehouse – Ein Anwendungsfall in Databricks und SAP Datasphere

Im Webinar führen wir Sie anhand eines konkreten Anwendungsfalls mit Azure Databricks und SAP Datasphere durch ein mögliches Vorgehen. Zudem geben wir einen Ausblick auf zukünftige Entwicklungen und zeigen auf, wie das Konzept dazu beiträgt, datengetriebene Entscheidungen effizienter und kostengünstiger zu gestalten.

Data Lake(house) mit ISR

Wenn man ehrlich ist, gibt es in der IT- und Analytics-Welt immer wieder Schlagworte, die in aller Munde sind, die aber keine echte Bedeutung haben und nicht zu einer echten Änderung der Vorgehensweisen führen. Bei Data Lake und Data Lakehouse ist es anders. Ein Data Lake macht zwar aus 1000km Flughöhe nichts anderes als ein Data Warehouse: Er speichert Daten und stellt sie für Analysen zur Verfügung. Wenn man aber etwas genauer hinschaut, ist vieles anders und es lohnt sich, für die eigene spezielle Umgebung zu betrachten, ob und wofür man einen Data Lake einsetzen möchte. Ein erster Schritt ist daher in vielen Kundensituationen die Aufnahme der entsprechenden Use Cases und Anforderungen:

  • Wer könnte einen Data Lake nutzen?
  • Welche Daten könnte man darin sammeln?
  • Welche Analyse-Formen wären darauf möglich?
  • Gibt es bereits Ideen, die auf einem Data Lake umsetzbar wären?
  • Kann man den Data Lake mit einem DWH integrieren und Teile der DWH-Architektur ablösen?

An dieser Stelle ist aber Vorsicht geboten, denn ein Data Lake dient häufig gerade zur Unterstützung innovativer oder sogar disruptiver Ansätze. Innovation ist nicht planbar und der Data Lake als Infrastruktur soll gerade die agile und explorative Suche nach unbekannten Wertpotentialen in Daten ermöglichen. Mit dem Einsatz eines Data Lakes geht also häufig ein Paradigmenwechsel bei der Datennutzung einher. Von der planbaren Umsetzung strukturierter und standardisierter Reportings wechselt man zu datengetriebenen Innovationsprozessen, die maximal auf Hypothesen aufsetzen, aber oft auch „ins Blaue hinein“ forschen. Dieser Ansatz bedingt häufig Änderungen in Governance und Organisation. In unseren Projekten begleiten wir auf Wunsch auch den initialen Prozess der Ideenfindung und der strategischen Anpassungen. Nur die Frage der Amortisation ist fast nie ex ante zu beantworten. Denn die werthaltigsten Innovationen sind die, die erst durch den Einsatz des datengetriebenen Vorgehens auf dem Data Lake entdeckt werden. Hier sind also strategischer Mut und Weitsicht gefragt.

Data & Analytics-Beratung mit ISR
Warum Sie auf uns setzen sollten!

Sie suchen nach einem Partner auf Ihrem Weg zur Data Driven Company? Wir stehen Ihnen mit unserer langjährigen Expertise im Data & Analytics Consulting zur Seite! Mit einem tiefgreifenden Verständnis für Business Analytics begleiten wir Sie von der Strategie bis zur Umsetzung. Unsere erfahrenen Data Analytics Consultants ermöglichen Ihnen, Potenziale zu entdecken und strategische Entscheidungen auf eine solide Datenbasis zu stellen. Aufgrund unserer langjährigen Partnerschaften mit SAP, IBM und Microsoft beraten wir Sie gerne herstellerneutral und technologieübergreifend.

Das bieten wir auch an.
Weitere Beratungsseiten

Data-Science-Beratung
Mit unseren Lösungen gestalten wir Ihre Datenprozesse effizient und zukunftssicher, damit Sie Wettbewerbsvorteile erzielen.
Data-Analytics-Beratung
Wir helfen wir Ihnen, wertvolle Erkenntnisse aus Ihren Daten zu gewinnen, für den nachhaltigen Erfolg Ihres Unternehmens.
Futuristisches Balkendiagramm mit Entwicklung aufwärts
Data-Management-Beratung
Mit maßgeschneiderten Data-Lake-, Data-Warehouse- und Data-Lakehouse-Lösungen begleiten wir Sie vom Anfang bis zum Ende.

Lesen Sie mehr im ISR-Blog
Wertvolle Inhalte zum Thema Data Lake

Nehmen Sie jetzt Kontakt auf
Wir beraten Sie gerne!

Nutzen Sie die langjährige Expertise unserer Data-Analytics-Consultants, um Ihre Datenstrategie zukunftssicher zu gestalten. Lassen Sie uns gemeinsam maßgeschneiderte Data-Analytics-Lösungen entwickeln, die Ihr Unternehmen nachhaltig für die Zukunft vorbereiten. Kontaktieren Sie uns gerne für ein unverbindliches Erstgespräch.