Geo-KI-Pipelines in der Praxis: Von ETL bis Deployment
Eine gute Idee wird erst durch eine stabile Pipeline wirksam. GeoAI stellt besondere Anforderungen: große Raster, unterschiedliche Koordinatensysteme, Metadatenvielfalt und strenge Qualitätskriterien. In diesem Beitrag zeigen wir, wie du eine deutschsprachig dokumentierte Pipeline aufbaust – von der Datenaufnahme über Training und Evaluation bis zum Deployment. Fokus: schnelle Iteration, Reproduzierbarkeit und klare Metriken, passend für österreichische Anwendungsfälle.
Architekturgrundsätze
- Reproduzierbarkeit: Jede Ausgabe lässt sich aus Versionen der Eingangsdaten und des Codes erneut herstellen.
- Skalierungen: Start im Kleinen, aber vorbereitet auf größere Kachelmengen.
- Transparenz: deutschsprachige Logs, klare Metriken und verständliche Reports.
- Datenschutz: sensible Daten trennen, Pseudonymisierung und Löschroutinen definieren.
ETL und Kataloge: STAC als Dreh- und Angelpunkt
Für Rasterdaten bewährt sich das STAC-Format: Assets, Zeitstempel, Geometrien – sauber beschrieben und auffindbar. Ein einfaches Ingest-Skript holt Sentinel-Kacheln oder Orthofotos, speichert sie mit Metadaten und erstellt Thumbnails. Vektordaten (z. B. OSM-Extrakte oder Verwaltungsgrenzen) legst du in einem räumlichen Datenbank-Backend ab, etwa PostGIS. Versioniere die Ingest-Skripte und ihre Parameter, damit ein späteres Re-Processing ohne Rätselraten gelingt.
Kacheln, Pyramiden und Projektionen
Rasterkacheln sind der Schlüssel zur Parallelisierung. Wähle eine Kachelgröße, die zu GPU/CPU und Speicher passt (z. B. 256–1024 Pixel). Für Web-Darstellung eignet sich EPSG:3857, für Analysen oft EPSG:4326; produktiv kannst du nationale CRS hinzufügen. Halte dich an einheitliche Regeln für Resampling und NoData-Werte. Dokumentiere auf Deutsch: „Wie wird aus 10 m Sentinel-Auflösung ein 20 m Analyse-Raster?“ – diese Frage kommt garantiert.
Feature Engineering und Labeling
Aus Rohdaten werden Eingaben fürs Modell. Beispiele: NDVI/NDWI aus multispektralen Bildern, Hangneigung aus DGM, Nähe zu Straßen oder Gewässern. Labels stammen aus amtlichen Datensätzen oder Projekten wie OpenStreetMap, müssen aber oft bereinigt werden. Prüfe Topologiefehler und zeitliche Konsistenz. Ein kleines Labeling-Tool in QGIS – mit klaren deutschsprachigen Vorgaben – verhindert Inkonsistenzen.
Training und Versionierung
Nutze DVC oder ähnliche Tools, um Datenstände und Modelle zu versionieren. MLflow protokolliert Hyperparameter, Metriken und Artefakte. Eine typische Trainingsschleife umfasst:
- Stratifizierte, räumliche Splits (Spatial K-Fold), um Leckagen zu vermeiden.
- Augmentierung passend zur Domäne (Jahreszeiten, Bewölkung, Schneebedeckung).
- Regelmäßige Validierung mit IoU/F1 pro Klasse.
Für Österreich-spezifische Anwendungsfälle (z. B. Lawinen- oder Muren-Hinweise) hilft es, alpine und städtische Gebiete separat zu betrachten und Metriken zu vergleichen.
Evaluation: Mehr als nur ein Score
Berichte auf Deutsch, mit Kartenbeispielen. Ergänze Fehlerkarten, Konfidenzen und Unsicherheiten. Ein Abschnitt „Was bedeutet 0,62 IoU für die Praxis?“ schafft Vertrauen bei Entscheidungsträgern. Zusätzlich lohnen Distanzmetriken (z. B. Kantenabstände bei Gebäuden) und Confusion-Matrizen pro Topographie-Typ.
Deployment und Betrieb
Leichtgewichtige Services gewinnen: ein Batch-Job für wöchentliche Aktualisierung, ein kleines API für On-Demand-Anfragen, dazu ein Web-Frontend mit Basemap.at oder OSM. Containerisiere den Inferenzdienst, parametriere Ein- und Ausgänge auf Deutsch und protokolliere Zugriffe datensparsam. Monitoring umfasst Latenz, Fehlerraten und Modell-Drift – letzteres erkennst du, wenn neue Eingabedaten statistisch vom Training abweichen.
Security und Governance
Rollenbasierte Zugriffe auf Datenbanken, minimal notwendige Berechtigungen, Logging ohne personenbezogene Details. Für Auftragsdatenverarbeitung mit Behörden sind deutschsprachige TOMs (technische und organisatorische Maßnahmen) Pflicht. Kleine Vorlagen helfen, die Hürden niedrig zu halten.
Praxisbeispiel: Straßenobjekterkennung
Ziel: Straßenschäden auf Fotos erkennen und Georeferenzen zuordnen. Daten kommen aus Meldungen auf Deutsch, Bilder aus mobilen Geräten. Pipeline: NER erkennt Ortsangaben, Geokodierung liefert Koordinaten, ein Bildmodell klassifiziert Schäden. Ergebnisse gehen als Punkt-Layer in PostGIS, ein Dashboard zeigt Hotspots. Iterativ verbesserst du das Labeling, aktualisierst das Modell und reduzierst so Bearbeitungszeiten.