Evaluierung in GeoAI: Metriken, die zählen – präzise, nachvollziehbar, räumlich
Gute GeoAI misst, bevor sie überzeugt. Karten sind visuell mächtig, aber ohne saubere Metriken bleibt vieles Bauchgefühl. Dieser Beitrag erklärt die wichtigsten Kenngrößen für Geomodelle, typische Fallstricke und praxistaugliche Reporting-Formate – auf Deutsch und mit Fokus auf österreichische Anwendungsfälle.
Worauf es ankommt
GeoAI berührt zwei Ebenen: thematische Korrektheit (ist es das richtige Objekt?) und räumliche Genauigkeit (liegt es am richtigen Ort?). Ein einziges Maß reicht selten. Kombiniere daher Klassenmetriken wie F1 oder mAP mit geometrischen Metriken wie IoU oder Distanzfehlern. Ergänze Konfidenz und Unsicherheit, um Stakeholdern die Verlässlichkeit zu zeigen.
Klassische Metriken
- Precision/Recall/F1: Bewährt für Klassifikation und Detektion. F1 balanciert Falsch-Positive und Falsch-Negative.
- mAP: Für Objekt-Detektion über IoU-Schwellen aggregiert; gibt Überblick über verschiedene Strengegrade.
- IoU (Intersection over Union): Wichtig bei Segmentierung/Flächenabgleich; bewertet Überlappung der Polygone.
Für Gebäudeerkennung in Stadtgebieten ist z. B. IoU≥0,5 ein gängiger Startwert; strengere Anwendungen (Amtliche Kartierung) verlangen höhere Schwellen.
Geometrische Metriken
- Kantenabstand/Hausdorff: Wie weit liegen Grenzen auseinander? Hilfreich bei feingranularen Objekten.
- Mittlerer Distanzfehler: In Metern – unmittelbar verständlich für Praxisentscheidungen.
- Boundary IoU: Gewichtet Randtreue stärker als Flächeninhalt – nützlich bei schmalen Objekten (Straßen, Ufer).
Achte auf das Koordinatensystem. Für Distanzmetriken brauchst du Projektionen mit Metern (z. B. UTM). Dokumentiere den CRS-Wechsel deutschsprachig und prüfe, ob Resampling Effekte erzeugt.
Räumliche Cross-Validation
Normale K-Fold-Validierung unterschätzt Fehler, wenn Kacheln räumlich nah beieinander liegen. Spatial K-Fold trennt Gebiete, z. B. Bezirke, und verhindert Leckagen. Berichte die Varianz zwischen Folds: „Wie stabil ist das Modell über Wien, Graz, Innsbruck?“ – diese Frage ist für österreichische Projekte zentral.
Unsicherheit und Konfidenz
Modelle irren – wichtig ist, wie sie es zeigen. Speichere pro Pixel/Objekt Konfidenzen und fasse sie in Unsicherheitskarten zusammen. In Berichten hilft eine Skala mit deutschsprachiger Legende. Entscheidungsträger verstehen schneller, wo Vorsicht geboten ist, etwa in alpinen Schattenlagen oder bei starker Bewölkung.
Fehleranalyse, aber visuell
Neben Tabellen brauchen Geo-Projekte Karten. Erzeuge Fehlerkarten: False Positives, False Negatives, niedrige Konfidenz. Layer über basemap.at oder OSM erleichtern das Verständnis. Ergänze Stichprobenansichten mit Orthofotos – eine Seite mit drei Panels (Ground Truth, Prediction, Differenz) überzeugt oft mehr als zehn Seiten Text.
Praxis-KPIs für Österreich
- Gebäude-Footprints: IoU, Randabstand, F1 – getrennt nach Stadt/Land.
- Vegetationskarten: Kappa oder F1 je Landbedeckungsklasse; saisonale Robustheit.
- Verkehrserkennung: mAP bei verschiedenen IoU-Schwellen; Tageszeit- und Wetterrobustheit.
Ergänze qualitative Checks: Stimmen Grenzen mit amtlichen Datensätzen überein? Weichen sie in Hanglagen oder Tälern ab?
Reporting: deutsch, kurz, belastbar
Ein gutes Evaluationsdokument umfasst:
- Aufgabe und Datengrundlage, inkl. Lizenzen, auf Deutsch.
- Methodik: Splits, CRS, Resampling, Augmentierungen.
- Metriken: F1, IoU, mAP – nach Gebietstyp und Klasse.
- Fehlerkarten und Beispiele mit kurzer Interpretation.
- Grenzen: Wo ist das Modell schwach? Was verbessert nächste Iterationen?
Fallstricke vermeiden
Häufige Probleme: Trainings- und Testgebiete überlappen räumlich; Labels sind zeitlich nicht synchron; Auswertung erfolgt im falschen CRS; Metriken werden ohne Kontext (z. B. Schneelage) verglichen. Eine Checkliste vor jedem Release reduziert diese Risiken erheblich.
Vom Score zum echten Mehrwert
Metriken sind Mittel zum Zweck. Verknüpfe sie mit Maßnahmen: „Bei IoU unter 0,5 in KG X zeigen wir keine automatischen Empfehlungen, sondern bitten um manuelle Prüfung.“ Solche deutschsprachigen, transparenten Regeln stärken Akzeptanz – besonders in kommunalen Anwendungen und bei kritischen Infrastrukturbetreibern.