Ziel der Entwicklung

Logo: Automatische Extraktion von Kerninformationen (Beispiel: Archiv zu Wildtiersichtungen), © GFaI 2019
Automatische Extraktion von Kerninformationen (Beispiel: Archiv zu Wildtiersichtungen), © GFaI 2019

Ziel des beantragten Projektes war es, Verfahren und Lösungen zu entwickeln, mit deren Hilfe heterogenes Beobachtungsmaterial, wie es von Teilnehmern von Großprojekten der bundesweiten Bewegung „Bürgerwissenschaften“ (Citizen Science, CS) geliefert wird, mit hohem Automatisierungsgrad zu klassifizieren, zu analysieren, auszuwerten und aufzubereiten.

Vorteile und Lösungen

Es wurden spezielle semantische Verfahren entwickelt, die heterogenes Beobachtungsmaterial analysieren und auswerten. Für die Forschenden können die relevanten Kerninformationen mit hohem Automatisierungsgrad aus den eingegangenen Zuschriften von Bürgern extrahiert werden. Im Fokus des Projekts standen E-Mail-Zuschriften. Alle Verfahren lassen sich jedoch auch auf andere Fließtextmeldungen anwenden wie Tweets, offene Formulartextfelder, Instagram-Bildunterschriften.
In CS.Recana entstanden Software-Verfahren zur abgesicherten Speicherung der Basisdaten (Zeit, Ort, Absender, Originalmitteilung), um Zitierfähigkeit zu gewährleisten und Nachfragen zu ermöglichen sowie zur automatisierten Extraktion von Aussagen, die dem wissenschaftlichen Interesse des jeweiligen CS-Projektes dienen.
Die Extraktionsverfahren werden mit Hilfe von fachspezifischen Ziel-Templates auf die Ausrichtung des CS-Projektes angepasst. Dem Forschenden werden die wichtigen Daten sofort angezeigt und auf Wunsch direkt in eine strukturierte Datenbank übernommen, die nach verschiedenen Aspekten ausgewertet werden kann und die Daten sicher verwaltet.
Durch die in CS.Recana entwickelten Verfahren können die Kernfragen zu den im Text beschriebenen Beobachtungen, nämlich das „WO“, „WANN“ und „WAS“ automatisch herausgefiltert werden. Dabei werden unscharfe oder relative Zeitangaben in standardisierte Daten überführt, Objektbeschreibungen klassifiziert und Ortsangaben in digitalen Karten angezeigt.
Mit Hilfe der im Projekt entwickelten Verfahren können die Antworten auf die „3W-Fragen“ automatisiert aus einer hohen Anzahl von Zusendungen gefiltert und visualisiert werden. Die extrahierten Informationen werden strukturiert verwaltet und können sofort für statistische Auswertungen genutzt werden.

Zielgruppe und Zielmarkt

Durch den Einsatz frei definierbarer Templates ist die Anpassung der Extraktionsverfahren auf verschiedene Fragestellungen einfach möglich, so dass das Ausgangsmaterial für unterschiedliche Forschungsaspekte genutzt werden kann.
Es entsteht ein hohes Einsparpotential bei der Filterung und Auswertung von textuellen CS-Beiträgen. Alle Ausgangsdaten und die generierten Datenextrakte verbleiben durchgängig beim Anwender, so dass die datenschutzrechtlichen Anforderungen erfüllt werden.
Zielgruppe sind Umweltorganisationen und Forschungszentren, die mit Bürgerwissenschaftlern zusammenarbeiten.
Nach Abschluss wurde umgehend damit begonnen, den Transfer von Projektergebnissen vorzubereiten. Verschiedene CS.Recana-Verfahren wurden bereits zur Marktreife weiterentwickelt und in die neue Software SKIMSON® integriert, so dass diese für zukünftige Bürgerprojekte verfügbar gemacht werden können.