Chat4Data: Verbesserung der Auffindbarkeit von Forschungsdaten in den Erdsystemwissenschaften mit großen Sprachmodellen (Chat4Data)
Findable (Auffindbar) – dafür steht das „F“ des FAIRen Datenmanagements. Zur Ermöglichung der Auffindbarkeit konzentrieren sich die FAIR-Prinzipien auf globale Identifikatoren sowie durchsuchbare und „reichhaltige“ Metadaten für einen Datensatz. Doch die Dokumentation von Daten mit „reichhaltigen“ Metadaten ist aufwändig und die Suche bisher meist auf Stichwort-Suchen begrenzt. Im beantragten Projekt wollen wir aktuelle Methoden der Künstlichen Intelligenz nutzen, um das Finden von Datensätzen zu verbessern und damit eine Nachnutzung zu ermöglichen. Dazu sollen mit Methoden des Natural Language Processing (NLP) KI-Modelle entwickelt werden, die Wissen über ein Fachgebiet sowie über Datensätze dieses Fachgebietes kombinieren. Für dieses Vorhaben werden die Modelle mit Metadaten aus Forschungsdatenrepositorien eines Fachgebietes sowie Fachtexten (Publikationen, Texte aus Daten-Journalen) trainiert, um dem Modell ein besseres inhaltliches Verständnis zu ermöglichen. Die Forschenden sollen davon profitieren, indem sie mit dem KI-Modell über einen Chatbot kommunizieren und so über Fragen und Antworten zu gesuchten Datensätzen geleitet werden. Als konkret umzusetzender Use Case dienen die Erdsystemwissenschaften (ESS) in Kooperation mit dem NFDI-Konsortium NFDI4Earth. Aufbauen kann das Projekt auf Vorarbeiten des nationalen Kompetenzzentrums für Big Data und KI Scads.AI Dresden/Leipzig sowie des BMWK-Projektes OpenGPT-X.
Projektlaufzeit
Projektleitung
- Prof. Dr. Sunna Torge (Projektleitung)
Mittelgeber
DFG
Kooperationspartner
- Technische Universität Dresden (TUD) * Center for Interdisciplinary Digital Sciences (CIDS) o Department „Informationsdienste und Hochleistungsrechnen“ (ZIH): Dr. Ralph Müller-Pfefferkorn – Projektleitung
- Technische Universität Dresden (TUD) * Center for Interdisciplinary Digital Sciences (CIDS) o Department “Center for Scalable Data Analytics and Artificial Intelligence ScaDS.AI Dresden/Leipzig” (ScaDS.AI): Dr. René Jäkel
- Technische Universität Dresden (TUD) * Professur für Geoinformatik (GI) / NFDI4Earth: Dr. Christin Henzen
- Leibniz Universität Hannover, L3S Research Center (LUH) * Institut für Data Science: Prof. Dr. Sahar Vahdati (auch assoziiertes Mitglied von ScaDS.AI Dresden/Leipzig)
Förderprogramme
„Wissenschaftliche Literaturversorgungs- und Informationssysteme“ (LIS), Förderprogramm „e-Research-Technologien“