Ziel der Entwicklung

Logo: Übersichtsdarstellung zur ANNOTOS Gesamtlösung, © GFaI Gesellschaft zur Förderung angewandter Informatik e. V.
Übersichtsdarstellung zur ANNOTOS Gesamtlösung, © GFaI Gesellschaft zur Förderung angewandter Informatik e. V.

Umfangreiche, handannotierte Korpora sind sehr wertvoll für die automatisierte Textanalyse in verschiedenen Anwendungsgebieten. Diese Analyseverfahren werden für verschiedene Felder der Computerlinguistik eingesetzt wie bei der Extraktion von Fakten, dem Information Retrieval, der Sentiment Analysis und dem Knowledge Discovery. Allerdings ist die Herstellung qualitativ hochwertiger Korpora auch sehr aufwendig und teuer. Zielstellung des Proejkts war somit die Entwicklung verschiedener Verfahren, die den Annotationsprozess unterstützen, teilautomatisieren und den zeitlichen Aufwand erheblich absenken.

Vorteile und Lösungen

Im Rahmen des Projekts wurden Methoden des Natural Language Processing (NLP) entwickelt, die die kollaborative Annotation anwendungsspezifischer Texte für den Aufbau qualitativ hochwertiger Fachkorpora unterstützen. Dazu gehören Verfahren der NLP-Pipeline (Part-of-Speech, Named Entity, Chunking, Dependency) und Verfahren zur Extraktion von eventbezogenen Aussagen. Das Gesamtverfahren umschließt neuartige Methoden zur interaktiven, schnellen und möglichst fehlerfreien Annotation an mobilen Clientrechnern und Verfahren für sogenannte Super-User-Arbeitsplätze. So werden die Einzelergebnisse automatisiert zusammenführt, kontrolliert und persistiert werden. Die zu benutzenden Tagsets sind frei konfigurierbar. Die Annotationsergebnisse werden in einer neuartigen Datenbasis gespeichert, aus welcher über verschiedene Protokollausgaben NLP-Trainingsmodule und Analyseverfahren gespeist werden können. Zum Anwendungsfall passende Analyseverfahren und Trainingsmodule wurden getestet, erweitert und in das Gesamtverfahren integriert.

Zielgruppe und Zielmarkt

Potentielle Anwendergruppen sind Endanwender, die Texte erschließen und eventuell mit Issue Tracking Systemen koppeln sowie Dienstleister, die Korpora für verschiedene Themenstellungen erzeugen. Eine weitere Zielgruppe sind Software-Entwickler, die Parser herstellen oder verbessern wollen. Die Gesellschaft zur Förderung angewandter Informatik e. V. plant, die Projektergebnisse gemeinsam mit Kooperationspartnern in marktfähige Produkte zu überführen und damit den Ergebnistransfer in die Wirtschaft direkt zu unterstützen.