In den letzten zehn Jahren haben die meisten Unternehmen ernsthafte Anstrengungen in Richtung digitaler Projekte unternommen. Die Unternehmen begannen, Daten als einen Vermögenswert zu betrachten und die erzeugten Daten zu analysieren. Anfangs schien es vielversprechend, mit Hilfe zusätzlicher oder aktueller Daten genauere Geschäftsentscheidungen zu treffen. Da die gesammelten oder verwalteten Daten nicht sehr umfangreich waren, gab es keine ernsthaften Bedenken, und so lief alles gut… eine Zeit lang. Schließlich wurde festgestellt, dass viele solcher Datenprojekte scheiterten, meist aus ähnlichen Gründen. Im Jahr 2017 berichtete Gartner, dass 60 % der Big-Data-Projekte nicht über das Anfangsstadium hinauskamen. Der CTO von IBM sagte, dass 87 % der Datenprojekte es nie in die Produktion schaffen. Was ist die Ursache für solch ein massives Scheitern, und was ist der Grund, der überhaupt zu diesem Blog geführt hat?
Während es üblich war, Data Scientists zu beschäftigen, die aus den Daten einen Sinn machen, wurde weniger daran gedacht, jemanden zu haben, der die Daten und ihre Infrastruktur verwaltet und ihre Qualität und Verfügbarkeit für die zuständigen Teams sicherstellt. Laut Gartner waren die gescheiterten Versuche auf einen Mangel an zuverlässigen Dateninfrastrukturen zurückzuführen, die Unfähigkeit, unvorstellbare Datenmengen zu verwalten, und die hohe Komplexität waren die Hauptursache.
Das Problem ist, dass man vielleicht die richtigen Experten hat, um die Daten zu modellieren, zu visualisieren und Berichte zu erstellen. Aber wenn die Daten nicht systematisch verwaltet oder kuratiert werden, werden die immer größer werdenden Datenmengen den Prozess schließlich in den Wahnsinn treiben. Wenn die Analyse nicht korrekt ist, bedeutet das nicht immer, dass die Data Scientists oder die BI-Analysten etwas falsch machen, sondern es kann auch das Ergebnis von falsch verarbeiteten Daten sein.

Was fehlt ?

Denken Sie an eine MotoGP-Analogie mit Valentino Rossi als Fahrer. Der Fahrer und seine Fähigkeiten sind wichtig, um das Rennen zu gewinnen, aber er ist auch von einem Team von Experten und vor allem von einem Superbike abhängig. Vergleichen wir den Fahrer eines Rennens mit den BI-Analysten und Datenwissenschaftlern eines Unternehmens. Sie könnten die Besten auf ihrem Gebiet sein, wobei der eine versucht, das Rennen zu gewinnen, während die anderen versuchen, das Geschäftsziel zu erreichen, wobei jeder von ihnen in der Tat außergewöhnliche Fähigkeiten hat. Aber was kann ein Weltmeister in einem Rennen ohne sein Motorrad ausrichten? Die Unternehmen erwarten, dass der Fahrer das Rennen mit einer Pferdekutsche aus dem Mittelalter gewinnt und nicht auf einem Motorrad des 21. Jahrhundert. Dem Motorrad selbst, d. h. den Data Engineers und der Notwendigkeit von Data Engineering, wurde weniger Bedeutung beigemessen.
Um die Bedeutung von Data Engineering zu verdeutlichen, schauen wir uns die folgende Pyramide an. Die Data Science Bedürfnsipyramide wurde 2017 von Monica Rogati veröffentlicht und zeigt den Arbeitsaufwand und die Komplexität der einzelnen Schritte auf, wenn man aufsteigt. Die allgemeine Idee ist, dass die Grundlagen für ML- oder KI-Fähigkeiten stark genug sein müssen und ein engagiertes Team zur Verfügung stehen muss, um sicherzustellen, dass der Prozess des Sammelns, Speicherns und Erforschens der Daten auf die bestmögliche Weise durchgeführt wurde. Die analytischen Fähigkeiten beruhen vollständig auf der Leistung und Qualität dieser Daten und ihrer Architektur. Es reicht also nicht aus, den besten Fahrer für ihr KI oder ML Projekt zu haben, wenn man ihn immer noch mit einer Pferdekutsche fahren lässt.

Was ist Data Engineering?

Data Engineering, ist die unscheinbare Schwester der Data Science, zumindest entsteht häufig dieser Eindruck zu dem Bereich, der in erster Linie aus ETL-, Business Intelligence- und Data Warehousing-Fähigkeiten besteht. Vor einem Jahrzehnt war die Datenmenge noch nicht groß genug, weshalb Data Engineering in der Regel auf PoC-Ebene blieb und nicht in die Produktion einfloss. Heutzutage erzeugen Unternehmen immer mehr Daten in einem immer höheren Tempo. Diese Daten müssen gesammelt, bereinigt und regelmäßig oder in Echtzeit aktualisiert werden. Parallel dazu haben sich die Datenbanktechnologien und Speicherlösungen weiterentwickelt, so dass Daten schneller und kostengünstiger gespeichert und genutzt werden können. Die Unternehmen sind daher bestrebt, den größtmöglichen Nutzen aus ihren Daten zu ziehen, und widmen dem Datenmanagement und den Datenprozessen große Aufmerksamkeit. Die Verwaltung der gesamten Datenlandschaft und der Pipeline-Prozesse ist jedoch eine Vollzeitaufgabe und erfordert ein engagiertes Data Engineering-Team.

Was macht der Data Engineer?

Ein Data Engineer könnte besser als ein Software-Ingenieur plus Business-Intelligence-Ingenieur mit Big-Data-Fähigkeiten vorgestellt werden. Kurz gesagt, ein Data Engineer sorgt dafür, dass die Rohdaten für das Unternehmen nützlicher sind. Die genauen Aufgaben und Verantwortlichkeiten eines Data Engineers variieren von Unternehmen zu Unternehmen, je nach deren Größe. Von einer kleinen bis hin zu einer großen Organisation kann ein Data Engineer als Generalist, Pipeline-zentriert oder datenzentriert arbeiten. Als Data Engineer können Sie an Projekten wie den folgenden beteiligt sein:
– Entwurf der Architektur
– Aufbau von ETL-Pipelines
– Aufbau von Data Warehouse/Data Lake
– Einsatz von Algorithmen für maschinelles Lernen
– Verwaltung von Daten und Metadaten
– Nachverfolgung der Pipelinestabilität

Warum sollte es für ihr Unternehmen von Bedeutung sein?

Da die Auswirkungen sind direkt in Ihrer finanziellen Leistung niederschlagen. Es gibt auch technische Vorteile, die ein Data-Engineering-Team mit sich bringt, aber für diesen speziellen Fall wäre es hilfreich, die Bedeutung des Data-Engineering im Hinblick auf Geld- und Zeiteinsparungen durch die “1-10-100”-Regel zu verstehen.
Diese 1-10-100-Regel ist im Grunde eine Regel des Qualitätsmanagements, die jedoch auch für Data Science-Projekte relevant ist. Wie wir gesehen haben, sind viele Projekte aufgrund des Fehlens einer soliden Grundlage gescheitert. Die Kosten eines solchen Scheiterns sind das investierte Geld sowie die Zeit, die für die Entwicklung von etwas aufgewendet wurde, das keinen Ertrag brachte. Wie bereits in der Bedürfnishierarchie der Datenwissenschaft erwähnt, würde eine solide Basis Ihnen helfen, Korrekturkosten oder Kosten aufgrund von Fehlschlägen zu verringern. Und Data Engineering sorgt dafür, dass diese Basis stark genug und widerstandsfähig ist.

Fazit

Unternehmen werden immer Analysen benötigen, die auf den neuesten Daten basieren, die in ihren Data Warehouses gespeichert sind, wo die Daten strukturiert, kuratiert und leicht zugänglich gemacht werden. Die Art und Weise, wie diese Data Warehouses aufgebaut sind, wird sich mit der Entwicklung der Datenbanktechnologien und der Zunahme der eingehenden Daten ändern. Und deshalb braucht man Data Engineering und Data Engineers, um diese Veränderungen zu bewältigen.
Sollten auch sie an diesem Punkt angekommen sein, dass ihr BI und Data Science Team kontinuierlich neue Anforderungen erhält bzgl. Daten bisher nicht integrierter Unternehmensbereiche, dann wird es Zeit, dass wir uns zu diesen Themen unterhalten und die zukünftige Struktur ihres Data Engineering Teams besprechen.
Peter Schmäling

Tushar Poojary

Tushar Poojary is a Junior Solution Architect at HUBSTER.S