Zentrales Datenmanagement und standardisierte Pipelines für Immobilien- und Finanzdokumente

Ausgangssituation

Ein führender IT-Dienstleister der Finanzgruppe stand vor der strategischen Herausforderung, die Verarbeitung riesiger Mengen an Immobiliendokumenten – von Energieausweisen bis zu Grundbuchauszügen – zukunftssicher aufzustellen. Die bisherige Landschaft war geprägt von manuellen Aufwänden und historisch gewachsenen Datenstrukturen, die zunehmend an ihre Grenzen stießen. Insbesondere die strengen regulatorischen Anforderungen des Bankensektors (DSGVO, BaFin, EU AI Act) erforderten eine neue Ebene der Transparenz und Kontrolle.

Es fehlte eine zentrale Instanz zur Datenverwaltung, was nicht nur die Einhaltung von Löschfristen erschwerte, sondern auch die Arbeit der Data-Science-Teams verlangsamte, da Daten oft in Silos lagen und Trainings- sowie Evaluierungsdatensätze nicht einheitlich vorlagen. Das Unternehmen erkannte die Chance, durch eine zentrale Plattform nicht nur die Compliance zu sichern, sondern gleichzeitig die Basis für nachvollziehbare, standardisierte und teamübergreifend nutzbare Datenprozesse zu schaffen.

Unsere Lösung

In enger Zusammenarbeit mit den internen Teams entwickelte AMAI die zentrale Datenhaltung und die dazugehörigen Datenpipelines als Rückgrat für alle weiteren Auswertungen und Modellprojekte. Der Fokus dieses Engagements liegt auf Trainings- und Evaluierungsdaten im Rahmen eines zentralen Data-Mesh-Ansatzes, auf standardisierter und reproduzierbarer Datenvorverarbeitung, auf der Automatisierung komplexer Datenprozesse und auf der einheitlichen Ablage von Daten – unabhängig davon, welche konkreten Modelle oder Services später darauf aufsetzen.

Zentrales Datenmanagement mit Delta Lake: Basis der Lösung bildet eine moderne Data-Lakehouse-Architektur. Durch den Einsatz von Delta Lake und einer strukturierten Medaillon-Architektur (Bronze, Silver, Gold) entsteht eine nachvollziehbare „Single Source of Truth“ für Dokumente, Metadaten und abgeleitete Artefakte. Versionierung („Time Travel“), klare Datenlinien und die technische Grundlage für Compliance-Themen wie das rechtssichere Löschen nach Vertragsende sind damit in der zentralen Datenhaltung verankert, statt in teamweise getrennten Ablagen.
Standardisierte Data Pipelines: Für Data Scientists und Data Engineers wurden einheitliche PySpark-Pipelines etabliert, die wiederkehrende Schritte von der Rohdatenaufnahme bis zu strukturierten Tabellen automatisieren. Besonders wirkungsvoll: Die Pipelines unterstützen die automatische Erzeugung und Weiterverarbeitung von Labeling-Projekten in Label Studio – ein Schritt, der manuell zuvor viel Zeit gebunden hat und nun in den standardisierten Datenfluss integriert ist. Gleichzeitig können Erkenntnisse aus Aufbereitung, Qualitätssicherung und Strukturierung der Daten auf die Datenhaltung und -verarbeitung anderer Teams übertragen werden, statt jede Fachdomäne isoliert neu zu erfinden.
Reproduzierbarkeit und Automatisierung: Komplexe Datenprozesse (etwa Aufteilung mehrseitiger Dokumente, Zuordnung von Seiten zu logischen Dokumenten, Aufbereitung für Auswertungen) laufen über nachvollziehbare Pipeline-Stufen. Dadurch wird nachvollziehbar, welche Daten in welcher Form für welche Zwecke genutzt werden – ein zentraler Baustein für regulatorische Anforderungen und für verlässliche Modell- und Produktentscheidungen.

Eine besondere Herausforderung lag darin, die unterschiedlichen Datenverarbeitungsprozesse verschiedener Data Scientists zusammenzuführen und einen gemeinsamen Standard zu etablieren. Intensive Abstimmungen zwischen den Beteiligten sowie die konsequente Anwendung einer strukturierten Schichtenarchitektur waren entscheidend, um Komplexität beherrschbar zu machen und gleichzeitig die Anforderungen aus Datenschutz und Regulatorik technisch zu verankern.

Ergebnisse & Business-Impact

Die Einführung des zentralen Datenmanagements markierte einen Wendepunkt in der Datenstrategie des Unternehmens. Das System unterstützt die strengen regulatorischen Vorgaben der Finanzindustrie (DSGVO, BaFin): Löschkonzepte und Nachvollziehbarkeit lassen sich technisch besser abbilden, weil Daten zentral und über Pipelines gesteuert verarbeitet werden. Bereits in der aktuellen Phase befinden sich über 900.000 Dokumente im zentralen Management; die Architektur ist für ein Vielfaches ausgelegt.

Durch die Ablösung manueller Datensilos und standardisierte, automatisierte Pipelines haben sich Entwicklungs- und Aufbereitungszyklen verkürzt. Die Anbindung von Label Studio an die Pipelines reduziert den Aufwand für Labeling-Projekte spürbar und macht wiederkehrende Schritte planbar. Aus der zentralen, strukturierten Datenhaltung lassen sich Statistiken und Übersichten über die vorhandenen Daten deutlich leichter erstellen als aus verteilten, uneinheitlich aufbereiteten Beständen, was Steuerung, Qualitätsmonitoring und die Kommunikation über Datenstände im Gesamtprogramm erleichtert.

Die Plattform bildet ein fundiertes Fundament für weiterführende Nutzungsszenarien, etwa tiefere Integration in Assistenzsysteme, Chatbots und Wissensmanagement, weil die Datenbasis einheitlich und erweiterbar bleibt.