Was die Hydrogeologie von Data Science im Hinblick auf reproduzierbare Forschung lernen kann

Maximilian Nölscher1, Stefan Broda1
1 Bundesanstalt für Geowissenschaften und Rohstoffe (BGR)

5.7 in Data-Science in der Hydrogeologie: Potenziale, Limitationen und Herausforderungen

27.03.2020, 12:15-12:30, Weißer Saal

In den meisten wissenschaftlichen Disziplinen, einschließlich der Geowissenschaften, spielen Programmierung und maschinelles Lernen eine immer wichtigere Rolle, da die Menge der zu verarbeitenden Daten exponentiell zunimmt. In der Hydrogeologie wird es zur Datenverarbeitung, -analyse, -vorhersage oder -visualisierung verwendet. Wenn man jedoch versucht, vielversprechende Methoden aus Publikationen auf eigenen Daten anzuwenden oder anzupassen, ist dies aufgrund unzureichender Dokumentation in klassischen Artikeln oft schwierig oder sogar unmöglich. Daher ist es für die Dokumentation von Forschungsprojekten, die Code enthalten, wichtig, neueste Methoden zu verwenden, um die Reproduzierbarkeit, Transparenz und die Fähigkeit zur Zusammenarbeit in der Hydrogeologie zu maximieren. Die Qualität der Dokumentation ist auch für einen schnellen Austausch von Wissen, Methoden und damit verbundenen Fehlern von grundlegender Bedeutung.

State-of-the-art Methoden zur Dokumentation, wie beispielsweise Markdown, Git und Notebooks, werden bereits seit mehreren Jahren hauptsächlich in der Informatik und Data Science entwickelt und angewendet. Auf der einfachsten Ebene umfasst dies die ergänzende Veröffentlichung gut benannter und strukturierter Skripte nach idealerweise vorhandenen Konventionen und auf der obersten Ebene die Veröffentlichung eines sogenannten Jupyter-Notebooks auf einer Entwicklungsplattform wie Bitbucket, Github oder anderen. Eine leicht reproduzierbare Forschung erfordert nicht nur eine qualitativ hochwertige Dokumentation, sondern beginnt mit der Verlagerung von schwer dokumentierbaren Werkzeugen wie Spreadsheets hin zur Verwendung von Programmiersprachen. Die gängigsten Dokumentationswerkzeuge in der Data Science werden vorgestellt und diskutiert, um die hydrogeologische Forschung zugänglicher zu machen und den Wissensaustausch zu beschleunigen. Geschwindigkeit und Demokratisierung von Wissenschaft sind insbesondere wichtig, um die Generierung von Erkenntnissen über die Konsequenzen der schnell voranschreitenden Klimakrise auf die Wasserressourcen zu beschleunigen.



Export as iCal: Export iCal