Domäne Data Analytics & Engineering, fehlend? (IT-Referat, München)

Im Tech-Stack des D-Stack werden als zu betrachtendes Thema u.a. auch die Bereiche

  • Datenanalyse
  • Datenkatalog

genannt.

Im Bereich Daten des Tech-Stack wird auf die empfohlenen Bebauung dieses Bereiches nur sehr unzureichend eingegangen. Es würde Sinn machen das Tooling für diesen wichtigen Bereich auch zu benennen. Eventuell macht es sogar Sinn diesem großen Bereich eine eigene Subdomäne im Bereich Daten zuzuordnen.

Folgende Bereiche könnten Teil eines klassischen Analytics-Stack sein und in solch einer Subdomäne näher betrachtet werden:

Unbenannt.png

Bereich Erklärung Kommentar Deutschland-Stack Beispiel LHM
Upstream Source Primärquelle der Daten die dem Analytics Stack zugeführt werden soll. In den meisten Fällen handelt es sich um Daten die in einer klassischen relationalen Datenbank liegen. Oft sind Quellen aber auch SAAS-Angebote die über Schnittstellen angebunden werden oder strukturierte Files. Datenbanken und Strukturierte Files sind Technologien die im Bereich Daten des D-Stacks umfassend behandelt werden. SAAS-Dienste sind individuell und sollten nicht Teil eines Tech-Radars sein.

Gut

PostgreSQL, CSV
Analytics Database Ort an dem die Daten zum Zwecke der Analyse (so wie vor und nachgelagerten Prozessen) bereitgehalten werden.

In meisten Unternehmen wird als Analytics Database ebenfalls eine klassische relationale Datenbanl verwendet. Es gibt allerdings auch spezialisierte Analytics Datenbanken.

Mit Cassandra ist eine spaltenbasierte NoSQL-Datenbank genannt. Es ist allerdings unklar ob diese Technologie als Analytics-DB für große Datenmengen vorgeschlagen/vorgesehen ist. Für den Bereich der GeoDaten konnten wir Technologie finden. (z.B. PostGis eine Erweiterung von PostgreSQL für Geodaten)

⚠️ Basis

PostgreSQL
Ingestion Tool Tooling um Daten aus einer Upstream Source in eine Analytics database zu überführen.

Im Tech-Radar konnten wir keine expliziten Hinweise auf die Bebauung für ein ETL-Tool finden. Node-Red könnte für die Integration und Automatisierung von Datenflüssen genutzt werden, wird aber im Kontext hierfür nicht als zielbebauung für ETL benannt und ist in erster Linie auch kein klassisches ETL-Tool.

Viele Unternehmen bauen sich ihre Ingestion mittels SQL selbst. SQL wird aber auch nicht explizit benannt nur unmittelbar über die auf SQL basierenden relationalen Datenbanken.

Fehlt

Pentaho Data Integration, Apache Hop, Airbyte, Apache Airflow
Data Modeling Tooling um Daten in einer Analytics Database zu transformieren.

Im Tech-Radar konnten wir keine spezifischen Tools für Data Modeling finden, wie zum Beispiel dbt (data build tool). Es werden verschiedene Datenbanken, Integrations- und API-Technologien erwähnt, jedoch keine spezialisierten Tools für das Datenmodellieren.

Fehlt

dbt (data build tool)
Reverse ETL Tooling um aufbereitete Daten aus der Analytics Database zurück in Fachanwendungen zu bringen.

Im Tech-Radar konnten wir kein spezifisches Reverse ETL Tool finden.

Es ist unklar, ob solch ein Tooling benötigt wird oder einfach die Ingestion Tools dafür verwendet werden sollen.

Es gibt spezialisierte Tools wie z.B. Hightouch die unter anderem auch explizit Reverse ETL bewerben. Es bleibt unklar ob hierfür ein explizites Tooling vorgesehen sein soll.

Fehlt

kein explizites Tooling bei der LHM vorhanden
BI Tools (+ Analyse Tools) Tooling um Daten aus der Analytivs Database zu Analysieren und zu Visualisieren und diese Analysen verfügbat zu machen.

Der Fokus des Tech-Radar liegt auf verschiedenen Datenformaten, Integrationsprotokollen und einigen Technologien, die mit Datenmanagement und -integration in Verbindung stehen.

Typische Analytics/BI-Tools wie Tableau, Power BI, Metabase oder ähnliche Analysewerkzeuge sind nicht aufgeführt und stellen für uns die größte Lücke im Bereich Data Analytics dar.

Fehlt

Metabase,

Shiny

Data Catalog Tooling um die Fülle an Daten/Metadaten in der Analytics Database und deren Abhängigkeiten zu visualisieren und durchsuchbar zu machen.

Es wird Comprehensive Knowledge Archive Network (CKAN) ein Werkzeug für Open Data Portale zur Katalogisierung, Veröffentlichung, Suche und Bereitstellung von Daten genannt.

Ob sich das auch für einen internen unternehmensweiten Data Catalog eignet wissen wir aber nicht.

Es ist "Data Catalog Vocabulary (DCAT)" aufgeführt, das ist aber mehr ein Standard für die Beschreibung von Datenkatalogen, also eine spec. aber kein explizites Tooling um diesen Bereich zu unterstützen bzw. zu bebauen.

⚠️ Basis

nicht wirklich bebaut. Ein abgespeckter Datenkatalog über die mittels dbt (siehe Data Modeling) verwalteten Daten ist möglich.
Orcestrierung Tooling um die zeitlichen Abhngigkeiten zwischen den einzelnen Komponenten zu steuern.

Im Tech-Radar sind keine spezifischen Tools zur Orchestrierung von Data Analytics Stacks aufgelistet, wie man sie typischerweise in Data Engineering oder Data Science verwendet. Es wird CI/CD genannt, was man durchaus auch zur Orcestrierung der verschiedenen Tools verwenden kann. Explizite Tools wie z.B. Apache Airflow fehlen aber.

⚠️ Basis

keine explizite bebauung aber GitLab CI/CD, Jenkins werden genutzt.

Grundsätzlich lässt sich sagen, das im Tech-Radar viele Technologien genannt werden, es aber unklar bleibt ob die Technologien für Data Analytics und Engineering vorgesehen sind oder für andere UseCases in den Tech-Radar gewandert sind.

Auch der Data Hub Berlin enthält einen bereits in der Verprobung befindlichen, gut abgestimmten Daten-Stack, an dem man sich orientieren kann

Es würde durchaus Sinn machen die Bebauung in einer so wichtige Domäne wie Data Analytics expliziter zu benennen.