Prof. Dr. Andrea Rapp über Tools, den Mehrwert vernetzter Daten und den Sinn von Qualitätskontrollen

Was ist der Beitrag Ihres Kompetenzzentrums zu TextGrid?

Rapp: Hier in Trier entwickeln wir das Grundlegende, Elementare, zum Beispiel den einfachen, direkten Zugang zu dieser Softwear – die Oberflächen, die man sieht, wenn man TextGrid aufruft. Aber wir entwickeln auch Spezialistentools, z.B. Tools, mit denen man Wörterbücher auswerten kann: Wir haben digitale Wörterbücher, in denen einzelne Teile von Artikeln markiert sind, beispielsweise als „Stichwort“, „grammatikalische Angabe“, „Bedeutungserläuterung“. Dadurch kann ich in diese Positionen in Wörterbüchern absuchen. Wir wollen auch verschiedene Wörterbücher miteinander verknüpfen, damit man von einem Wörterbuch ins andere springen kann, um nachzuschauen, wie ein bestimmtes Wort auf Mittelhochdeutsch oder Althochdeutsch heißt, oder in verschiedenen Dialekten. Um dabei immer zum richtigen Wort zu kommen, braucht man Tools, die die entsprechenden Stellen miteinander verknüpfen.

Können Sie uns ein Beispiel geben?

Rapp: Nehmen wir die vielfältigen Bezeichnungen für Brombeere: Die Pflanze kennt jeder, aber sie wird in jedem Dialekt durch ein anderes Wort bezeichnet: Schwarzbeere, Dornbeere, Maulbeere oder ganz anders. Wenn ich das als Nichtdialektsprecherin nicht weiß, kann ich nicht danach suchen. Aber wenn die Wörterbücher untereinander vernetzt sind, schlage ich eine der Bezeichnungen nach und finde gleich alle Alternativen. Außer Einzelwörtern wollen wir auch Phraseologismen, Redewendungen markieren. Sie werden in Wörterbüchern häufig verwendet, man kann sie aber nicht als Stichwörter finden. Nehmen wir beispielsweise eine feste Wortverbindungen wie „vor sich her“. Im Wörterbuch finde ich dafür keinen Eintrag, weder unter „vor“ noch unter „sich“ noch unter „her“. Wenn ich den Ausdruck aber als geläufige Konstruktion, als Phraseologismus, markiert habe, dann kann ich mir ansehen, wie er im Wörterbuch verwendet wird. Und so kann man Wörterbücher, in deren Artikeln viele bislang ungenutzte Informationen stecken, gezielter auswerten.

Braucht man dafür nicht immer noch einen Menschen, der die Verbindung als solche erkennt und markiert?

Rapp: Letztendlich, wenn es präzise sein soll, muss ein Mensch die Entscheidung treffen. Der Computer kann aber helfen, indem er Vorschläge macht. Er stellt rechnerisch fest, dass bestimmte Worte ganz häufig nebeneinander oder auch nur in der Nähe voneinander vorkommen. Dann kann ein Mensch die vorgeschlagenen Listen durchsehen und entscheiden, in welchen Fällen es sich tatsächlich um feste Wortverbindungen handelt. Wir entwickeln nun Tools, die Wissenschaftler bei ihrer intellektuellen Arbeit unterstützen, indem sie ihnen solche Routinearbeiten wie das Durchsuchen großen Datenmengen abnehmen und die Ergebnisse statistisch auswerten.

Ist TextGrid also einfach eine gigantische Suchmaschine?

Rapp: Nein, es ist mehr, denn die Informationen darin sind keine Zufallstreffer, sondern philologisch gesichert, abstrahiert und qualitativ sehr hochwertig. Und dann gibt es noch etwas, was uns erst mit der Zeit aufgegangen ist: Wörterbücher an sich enthalten ja zunächst Texte, also Daten. Aber wenn wir auf diese Daten nicht nur lesend zugreifen, sondern arbeitend, dann können sie gewissermaßen selbst zu Werkzeugen werden. In der Arbeit mit einem literarischen Text kann beispielsweise die Frage auftauchen, ob ein bestimmtes Wort für diesen Dichter spezifisch ist, ob es regional begrenzt oder aber ganz weit verbreitet ist. Die miteinander verknüpften, aufbereiteten Wörterbücher geben mir Antworten auf diese Fragen. Und so können Daten, die ein Wissenschaftler erzeugt hat, für einen anderen zu neuen Werkzeugen werden. Dafür braucht man allerdings eine kritische Masse. Bei einem Wörterbuch passiert noch nicht viel. Aber wenn man plötzlich zehn oder zwanzig zur Verfügung hat, die man aufeinander beziehen kann, dann steigt der Mehrwert exponential.

Wird es eine Qualitätskontrolle für die in TextGrid eingebrachten Daten geben?

Rapp: Das ist ein heikler Punkt: Bis zu welchem Grad möchte man Andere kontrollieren und bevormunden? Das ist sicher noch nicht ganz ausdiskutiert. Wenn sich jemand als Wissenschaftler authentifiziert hat, als Angehöriger eine Universität oder eines wissenschaftlichen Instituts, dann muss man ihm meiner Meinung nach seine Forschungen ermöglichen. Wenn ich finde, dass eine Edition schlecht ist, soll sie dann aus TextGrid rausgeschmissen werden? Aus der Bibliothek werden schlechte Editionen ja auch nicht entfernt. Die Community muss das vielleicht einfach ausdiskutieren und auf unterschiedliche Qualität reagieren – vielleicht durch Zugriffszahlen. Natürlich wird unsere Lizenz eine Passus enthalten, der es verbietet, rechtsverletzende oder politisch gefährliche Inhalte zu verbreiten. Aber es gibt ja Kollegen, die sich mit Gewalt verherrlichenden oder antisemitischen Texten wissenschaftlich beschäftigen. Die müssen ihre Daten auch zur Verfügung stellen. Das ist bei gedruckten Wörterbüchern nicht anders: Einige Teile des Grimmschen Wörterbuchs sind beispielsweise während der Nazi-Zeit erstellt worden. Man kann Artikel, die den Ungeist dieser Zeit spiegeln, ja nicht herausnehmen. Man muss nur klar machen, aus welcher Zeit sie stammen, und wie sie zu bewerten sind.

Die Fragen stellte Esther Lauer.

Zurück zur Pressemappe …