Tiny steps towards Big Data – Freud und Leid in der Arbeit mit großen Grundwasserdatensätzen

Johannes C. Haas1, Steffen Birk1, Peter Rauch2
1 Institut für Erdwissenschaften, Karl-Franzens-Universität Graz
2 Land Steiermark, Abt. 15, Gewässeraufsicht

5.5 in Data-Science in der Hydrogeologie: Potenziale, Limitationen und Herausforderungen

27.03.2020, 11:45-12:00, Weißer Saal

In Österreich sind über die Plattformen eHyd (Hydrographie; ehyd.gv.at) und H2O-Fachdatenbank (Wassergüte; wasser.umweltbundesamt.at/h2odb/) die Daten von insgesamt 3040 Grundwassermessstellen, 950 Niederschlagsmessungen und 800 Pegeln öffentlich verfügbar. Hierdurch lässt sich ein umfassender Überblick über Wasserquantität und -qualität erreichen, und die große Datenfülle ermöglicht neue Ansätze und Erkenntnisse. Allerdings sind dabei einige (vermeidbare) Stolpersteine zu umgehen.

Im Folgenden geben wir einen kurzen Überblick über diese neuen Ansätze, Erkenntnisse und zeigen mögliche Lösungsansätze für die Herausforderungen auf.

Ansätze

„Klassische“ Werkzeuge wie Microsoft Excel stoßen bei großen Datensätzen schnell an ihre Grenzen. Auch sind solche Werkzeuge nicht darauf ausgelegt Arbeitsschritte nachvollziehbar zu dokumentieren, was zu Problemen bei der Reproduzierbarkeit führen kann [1]. Um dies zu umgehen, plädieren wir für den Einsatz von Programmier- oder Skriptsprachen, die inhärent reproduzierbare Arbeitsabläufe erzwingen. Aufgrund der Nutzerfreundlichkeit und großen Verbreitung verwenden wir hierzu die Sprache „Python“. Wir nutzen Python um die genannten Daten zu standardisieren und mittels Korrelationsmatrizen und Karten einen Startpunkt für Datenvergleiche und weitere Analysen zu erhalten [2].

Erkenntnisse

Es konnte gezeigt werden, dass in den Aquiferen des Murtals viele Messstellen hoch miteinander und mit der Mur korreliert sind [3]. Dieser Ansatz soll in dem von der ÖAW geförderten Projekt „Integrative Groundwater Assessment“ weitergeführt und auf Wassergütedaten ausgeweitet werden. Weiterhin wollen wir prüfen, ob der Ansatz auch zur Optimierung von Messstellennetzen genutzt werden kann.

Die Möglichkeit, mit wenigen, einfachen Befehlen den österreichweiten Datensatz zu sortieren und zu mitteln, erlaubte es, einen mittleren Trend der Grundwasserstände (fallend bis in die 80er Jahre, dann ansteigend) der etwa gegenläufig zum generellen Wasserverbrauch ist, zu identifizieren. Allerdings sind noch weitere Arbeiten nötig, um einen möglichen kausalen Zusammenhang zu veri- oder falsifizieren [4].

Herausforderungen und Lösungsansätze

In Österreich sind zwar sehr viele Daten verfügbar, die Weboberflächen sind aber nicht auf den Download von großen Datenmengen ausgelegt. Hierzu müssen entweder die zuständigen Behörden kontaktiert oder die Website mittels Brute-Force-Abfragen überlistet werden, da keine API offen verfügbar ist.

Python ermöglicht Reproduzierbarkeit, aber es fehlen noch gute Möglichkeiten, die für einen Fachartikel verwendeten Skripte zu publizieren und zu archivieren. Projekte wie jupyter notebook (jupyter.org) und github.com sind vielversprechende Ansätze, stehen aber aktuell noch vor Problemen für den Publikationseinsatz. Neben der Problematik das interaktive Skripte schlecht druckbar sind – und Verlage folglich nicht gut auf solche Medien vorbereitet sind – sind sie oft auch abhängig vom Betriebssystem und sonstiger Software.



[1] Fienen & Bakker
HESS Opinions: Repeatable research: what hydrologists can learn from the Duke cancer research scandal
HESS, 2016, 20, 3739-3743
[2] Haas; Switanek & Birk
Analysis of hydrological data with correlation matrices: technical implementation and possible applications
EES, 2018, 77, 310
[3] Haas & Birk
Characterizing the spatiotemporal variability of groundwater levels of alluvial aquifers in different settings using drought indices
HESS, 2017, 21, 2421-2448
[4] Haas & Birk
Trends in Austrian groundwater – Climate or human impact?
J. Hydrol. Reg. Stud., 2019, 22, 100597



Export as iCal: Export iCal