Machine-Learning basiertes Clustering von Grundwasserganglinien

Andreas Wunsch1, Tanja Liesch1, Stefan Broda2
1 Karlsruher Institut für Technologie (KIT), Karlsruhe
2 Bundesanstalt für Geowissenschaften und Rohstoffe (BGR), Berlin

5.8 in Data-Science in der Hydrogeologie: Potenziale, Limitationen und Herausforderungen

27.03.2020, 12:30-12:45, Weißer Saal

Das Verständnis und die Charakterisierung der Eigenschaften von Grundwassersystemen ist von großer Bedeutung für die Entwicklung nachhaltiger Grundwassermanagementstrategien. Hierbei sind Grundwasserganglinien eine wertvolle Informationsquelle, da in ihnen Systemeigenschaften (z.B. Grundwasserleitertyp) sowie künstliche (z.B. Entnahme/Infiltration) und natürliche Umweltfaktoren (z.B. Grundwasser-Oberflächenwasser-Interaktion) abgebildet sind. Derartige Einflüsse unterliegen einer starken räumlichen und zeitlichen Überlagerung, wodurch die Bestimmung der einzelnen Anteile teils immens erschwert wird. Das Verständnis räumlicher Grundwasserdynamikmuster ist hierbei eine wertvolle Informationsquelle. Im Allgemeinen stehen in vielen Regionen große Mengen an Grundwasserdaten mit hoher zeitlicher und räumlicher Auflösung zur Verfügung, es mangelt jedoch an geeigneten Instrumenten zur Auswertung und Analyse dieser Datensätze. Datengetriebene Modelle sind potenziell geeignet, diese Lücke zu schließen. Das vorgestellte Verfahren nutzt einen machine-learning basierten Ensemble-Modellierungsansatz, um Grundwasserganglinien in regionalem Maßstab entsprechend ihrer Dynamik zu charakterisieren und zu clustern. Dank eines Feature-basierten Clustering-Ansatzes kann die Abhängigkeit von der Datenqualität der Zeitreihen reduziert und die Nutzung heterogener Datensätze verbessert werden. Features sind in diesem Fall beschreibende (statistische) Kennzahlen der Zeitreihen und wurden teils speziell für die Beschreibung von Grundwasserganglinien entworfen. Zum eigentlichen Clustering werden Self-Organizing-Maps unter Anwendung des DS2L-SOM-Enrichment Algorithmus herangezogen. Die Nutzung von Clusterensembles gewährleistet zudem robuste Clusterergebnisse, die die regelmäßigen Änderungen des Messstellenpools eines realen Beobachtungsnetzwerkes abbilden können.

Als Testgebiet für das Verfahren wurde der Oberrheingraben mit mehr als 1800 wöchentlichen Grundwasser-Ganglinien in Deutschland und Frankreich im Zeitraum von 1986 bis 2015 ausgewählt. Die Mehrheit aller Zeitreihen weist Längen von nahezu 30 Jahren auf, die Minimallänge im Datensatz beträgt sechs Jahre. Die Ergebnisse zeigen, dass unser Ansatz in der Lage ist, homogene Gruppen der Gangliniendynamik zu identifizieren. Die resultierenden Cluster beinhalten sowohl bekannte als auch bis dato unbekannte Muster, von denen einige zudem externen Einflüssen direkt zugeordnet werden konnten. Einige Muster unbekannter Herkunft bedürfen jedoch weiterer Untersuchungen. Eine mögliche Anwendung solcher Dynamik-Cluster könnte beispielsweise die regionale Grundwasserprognose durch Auswahl und Vorhersage repräsentativer Clustermitglieder sein. Durch Adaption der beschreibenden Features ist der Ansatz zudem gut auf andere Zeitreihen-Clustering-Frameworks übertragbar.



Export as iCal: Export iCal