Sprachmodell und Kartenlayer

Sprachmodelle für deutschsprachige Geodaten: Von Dialekt bis Domänenwissen

GeoAI endet nicht bei Raster und Vektor. Viele wertvolle Informationen liegen in Texten: Meldungen der Bevölkerung, Baustellenhinweise, Pressemitteilungen, Protokolle oder historische Dokumente. In Österreich sind diese Informationen meist auf Deutsch, oft mit regionalen Begriffen und Abkürzungen. Dieser Beitrag zeigt, wie du Sprachmodelle gezielt für Geodaten einsetzt – von der Adresserkennung bis zur Klassifikation von Ereignissen – und worauf du bei Dialekten, Domänenanpassung und Datenschutz achten solltest.

Use-Cases: Wo Sprache und Raum zusammentreffen

  • Adress-Parsing und Geokodierung: aus Freitext präzise Koordinaten erzeugen.
  • Ereignisklassifikation: Meldungen nach Kategorien wie „Überflutung“, „Glätte“, „Baustelle“ einordnen.
  • Entitäten erkennen: Gemeinden, Bezirke, Katastralgemeinden (KG), Flüsse oder Berge extrahieren.
  • Trends erkennen: zeitliche Aggregation von Schlagwörtern, um Hotspots zu identifizieren.

Besonderheiten der deutschen Sprache in Österreich

Deutsch in Österreich bringt Varianten mit sich, die Modelle berücksichtigen sollten: „Gasse“, „Steig“, „Alm“, „Kogel“, „Bachl“. Außerdem existieren Verwaltungskürzel wie „Bez.“ (Bezirk), „KG“ (Katastralgemeinde) oder Straßentypen wie „L“, „B“ und „A“ im Straßennetz. Ein reines Standarddeutsch-Modell erkennt diese Begriffe oft, versteht aber die Semantik nicht ausreichend. Daher lohnt sich eine leichtgewichtige Domänenanpassung mit Beispieldaten aus Österreich.

Tokenisierung, Vokabular und NER

Für Named Entity Recognition (NER) auf Ortsnamen und Adressen funktionieren subword-Tokenizer gut, allerdings sollten häufige österreichische Suffixe (z. B. „-gasse“, „-platzl“) in den Trainingsbeispielen vorkommen. Erzeuge Annotationen für:

  • Adresse (Straße, Hausnummer, PLZ, Ort)
  • Verwaltungseinheiten (Gemeinde, Bezirk, Bundesland)
  • Toponyme (Berge, Flüsse, Gewässer)

Schon 1–2.000 saubere, deutschsprachige Trainingssätze mit realistischen Fehlern (z. B. Tippfehler, Dialekt) verbessern die Trefferrate spürbar.

Domänenanpassung: Klein, fokussiert, wirksam

Statt ein großes Modell komplett neu zu trainieren, reicht meist ein Feintuning auf deine Aufgabe. Nimm ein deutschsprachiges Basismodell und fine-tune auf NER oder Textklassifikation. Achte auf eine ausgewogene Klassenverteilung. Für Meldungen kannst du Kategorien definieren wie „Infrastruktur“, „Wetter“, „Verkehr“, „Sicherheit“ und „Sonstiges“. Miss regelmäßig die F1-Werte pro Klasse; deutschsprachige Fehldeutungen (z. B. „Gasse“ vs. „Gasse“ im eigennamenlosen Kontext) zeigen sich oft erst im Fehler-Review.

Geokodierung: Vom Text zur Geometrie

Aus „Schönbrunner Straße 120, 1050 Wien“ wird ein Punkt – aber nur, wenn du Geokodierung sauber orchestrierst. Pipeline-Vorschlag:

  • Text normalisieren (Umlaute, Abkürzungen, Groß-/Kleinschreibung).
  • NER ausführen und Adresskomponenten extrahieren.
  • Geokodierungsdienst abfragen (Open-Source oder behördlich), Ergebnisse plausibilisieren.
  • Koordinatensystem vereinheitlichen (Web-Anwendungen oft EPSG:3857, Analysen häufig EPSG:4326 oder nationales CRS).

Ergänze Regeln für typische österreichische Muster, etwa die Kombination aus „KG + Name“ oder Bezirksnummern in Wien.

Qualität und Evaluierung

Bewerte Sprachkomponenten ähnlich streng wie räumliche Modelle. Für NER: Precision, Recall, F1 auf Entitätsebene; für Geokodierung: Distanzfehler (Meter) zwischen erwarteter und gefundener Position. Teste auf mehreren Regionen (Stadt/Land, Ost/West), um Dialekt- und Datenquellenvariabilität abzudecken. Ein gezielter „Österreich-Testset“ mit typischen Sonderfällen (mehrsprachige Ortsnamen, Doppelnamen) verhindert böse Überraschungen.

Datenschutz und Fairness

Auch Textdaten können persönlich identifizierbare Informationen enthalten. Vermeide die Speicherung unnötiger Inhalte, anononymisiere personenbezogene Anteile und dokumentiere Zwecke klar. Für interne Trainingssätze genügt oft ein minimaler Auszug mit Pseudonymisierung. Fairness heißt hier: Dialekt und Minderheitensprachen nicht benachteiligen, z. B. indem du Beispiele aus dem Burgenland oder aus Südtirol-Referenzen (falls genutzt) berücksichtigst.

Praktische Tipps

  • Begriffslisten pflegen: österreichische Straßentypen, Abkürzungen, häufige Ortsvarianten.
  • Fehlerkatalog führen: Wo versagt NER, wo die Geokodierung? Lerne iterativ daraus.
  • Explainability: kurze, deutschsprachige Erklärungen in der UI erhöhen Vertrauen.
  • Schlanke Modelle bevorzugen: In Verwaltungen und KMU zählt Latenz und Wartbarkeit.
Kurzfazit: Deutschsprachige Sprachmodelle werden in Geo-Pipelines zum Multiplikator – wenn Dialekte, Abkürzungen und Österreich-spezifika in Daten, Regeln und Evaluierung reflektiert sind.