Evaluierung in GeoAI: Metriken, die zählen – präzise, nachvollziehbar, räumlich

Gute GeoAI misst, bevor sie überzeugt. Karten sind visuell mächtig, aber ohne saubere Metriken bleibt vieles Bauchgefühl. Dieser Beitrag erklärt die wichtigsten Kenngrößen für Geomodelle, typische Fallstricke und praxistaugliche Reporting-Formate – auf Deutsch und mit Fokus auf österreichische Anwendungsfälle.

Worauf es ankommt

GeoAI berührt zwei Ebenen: thematische Korrektheit (ist es das richtige Objekt?) und räumliche Genauigkeit (liegt es am richtigen Ort?). Ein einziges Maß reicht selten. Kombiniere daher Klassenmetriken wie F1 oder mAP mit geometrischen Metriken wie IoU oder Distanzfehlern. Ergänze Konfidenz und Unsicherheit, um Stakeholdern die Verlässlichkeit zu zeigen.

Klassische Metriken

Precision/Recall/F1: Bewährt für Klassifikation und Detektion. F1 balanciert Falsch-Positive und Falsch-Negative.
mAP: Für Objekt-Detektion über IoU-Schwellen aggregiert; gibt Überblick über verschiedene Strengegrade.
IoU (Intersection over Union): Wichtig bei Segmentierung/Flächenabgleich; bewertet Überlappung der Polygone.

Für Gebäudeerkennung in Stadtgebieten ist z. B. IoU≥0,5 ein gängiger Startwert; strengere Anwendungen (Amtliche Kartierung) verlangen höhere Schwellen.

Geometrische Metriken

Kantenabstand/Hausdorff: Wie weit liegen Grenzen auseinander? Hilfreich bei feingranularen Objekten.
Mittlerer Distanzfehler: In Metern – unmittelbar verständlich für Praxisentscheidungen.
Boundary IoU: Gewichtet Randtreue stärker als Flächeninhalt – nützlich bei schmalen Objekten (Straßen, Ufer).

Achte auf das Koordinatensystem. Für Distanzmetriken brauchst du Projektionen mit Metern (z. B. UTM). Dokumentiere den CRS-Wechsel deutschsprachig und prüfe, ob Resampling Effekte erzeugt.

Räumliche Cross-Validation

Normale K-Fold-Validierung unterschätzt Fehler, wenn Kacheln räumlich nah beieinander liegen. Spatial K-Fold trennt Gebiete, z. B. Bezirke, und verhindert Leckagen. Berichte die Varianz zwischen Folds: „Wie stabil ist das Modell über Wien, Graz, Innsbruck?“ – diese Frage ist für österreichische Projekte zentral.

Unsicherheit und Konfidenz

Modelle irren – wichtig ist, wie sie es zeigen. Speichere pro Pixel/Objekt Konfidenzen und fasse sie in Unsicherheitskarten zusammen. In Berichten hilft eine Skala mit deutschsprachiger Legende. Entscheidungsträger verstehen schneller, wo Vorsicht geboten ist, etwa in alpinen Schattenlagen oder bei starker Bewölkung.

Fehleranalyse, aber visuell

Neben Tabellen brauchen Geo-Projekte Karten. Erzeuge Fehlerkarten: False Positives, False Negatives, niedrige Konfidenz. Layer über basemap.at oder OSM erleichtern das Verständnis. Ergänze Stichprobenansichten mit Orthofotos – eine Seite mit drei Panels (Ground Truth, Prediction, Differenz) überzeugt oft mehr als zehn Seiten Text.

Praxis-KPIs für Österreich

Gebäude-Footprints: IoU, Randabstand, F1 – getrennt nach Stadt/Land.
Vegetationskarten: Kappa oder F1 je Landbedeckungsklasse; saisonale Robustheit.
Verkehrserkennung: mAP bei verschiedenen IoU-Schwellen; Tageszeit- und Wetterrobustheit.

Ergänze qualitative Checks: Stimmen Grenzen mit amtlichen Datensätzen überein? Weichen sie in Hanglagen oder Tälern ab?

Reporting: deutsch, kurz, belastbar

Ein gutes Evaluationsdokument umfasst:

Aufgabe und Datengrundlage, inkl. Lizenzen, auf Deutsch.
Methodik: Splits, CRS, Resampling, Augmentierungen.
Metriken: F1, IoU, mAP – nach Gebietstyp und Klasse.
Fehlerkarten und Beispiele mit kurzer Interpretation.
Grenzen: Wo ist das Modell schwach? Was verbessert nächste Iterationen?

Fallstricke vermeiden

Häufige Probleme: Trainings- und Testgebiete überlappen räumlich; Labels sind zeitlich nicht synchron; Auswertung erfolgt im falschen CRS; Metriken werden ohne Kontext (z. B. Schneelage) verglichen. Eine Checkliste vor jedem Release reduziert diese Risiken erheblich.

Vom Score zum echten Mehrwert

Metriken sind Mittel zum Zweck. Verknüpfe sie mit Maßnahmen: „Bei IoU unter 0,5 in KG X zeigen wir keine automatischen Empfehlungen, sondern bitten um manuelle Prüfung.“ Solche deutschsprachigen, transparenten Regeln stärken Akzeptanz – besonders in kommunalen Anwendungen und bei kritischen Infrastrukturbetreibern.

Kurzfazit: Seriöse GeoAI-Evaluierung kombiniert Klassen- mit Geometriemetriken, räumlicher Validierung, Unsicherheitskarten und klaren, deutschsprachigen Reports. So werden Scores zu Entscheidungen.

Zur Startseite Zurück zum Blog Nächster Beitrag: Einstieg Vorheriger Beitrag