Digitale Geisteswissenschaften made in Germany

Von Keith Allen

Die New York Times hat 2010 mit einer Artikelserie das Zeitalter der „digitalen Geisteswissenschaften“ eingeläutet1 und an Beispielen aus den USA vorgeführt, wie hier ein neues Feld kreativer Forschung entsteht.

Mit dem Einsatz von digitalen Technologien und dem Zugriff auf Massen von Daten entwickeln Historiker eine Kartographie des amerikanischen Bürgerkriegs, um zu klären, welche Rolle die Topographie am seinem Ausgang hatte: Musikwissenschaftler scannen Tausende von jam sessions auf der Suche nach dem Einfluss bestimmter musikalischer Kollaborationen auf die Entwicklung des Jazz; Wissenschaftshistoriker durchsuchen ungezählte gelehrte Werke aus der Zeit der Aufklärung, um Ursprung und Verbreitung bestimmter Ideen neu zu bestimmen und um Netzwerke der Gelehrtenrepublik zu visualisieren; und schließlich gibt es auch Projekte wie VisualEyes, das Lehrenden Animation, Tabellen und Primärquellen über Thomas Jeffersons Reisen bereit stellt, um neue Wege in der Vermittlung von Geschichte zu ermöglichen. Alle diese Projekte setzen darauf, dass die neuartigen Dimensionen digitaler Quantifizierbarkeit auch in den Geisteswissenschaften neue Erkenntnisse hervorbringen können.

In Deutschland ist zur Zeit das Göttinger Verbundprojekt TextGrid dabei, eine Technologie zu entwickeln, welche Philologen, Linguisten, Musikwissenschaftler und Historiker bald nutzen können, um Forschungen in virtueller Forschungsumgebung zu betreiben.

Das „Grid“ ist hier vergleichbar mit dem Stromnetz: Rechenzentren bieten wie Kraftwerke Computerleistung und Speicherplatz in einem gemeinsamen Netz an. Die Nutzer zapfen diese Ressourcen an, ohne dass sie wissen müssen, wer gerade den Rechenauftrag für sie erledigt oder ihre Daten sicher speichert. Ganze Dienste und Werkzeuge laufen dann „im Grid“ und ermöglichen Höchstleistungen, die ein Bürorechner alleine nicht schaffen kann.

Grid-Technologien und virtuelle Forschungsumgebungen wurden bislang vor allem in den Naturwissenschaften eingesetzt. Sie ermöglichen es Wissenschaftlern, auf eine unvorstellbar große Masse von Daten über weite Entfernungen hinweg gemeinsam zuzugreifen und diese zu analysieren. Zentral ist die Software, die Daten und Werkzeuge so stabil und gleichzeitig so im Fluss zu halten vermag, dass von vielen Orten aus zeitgleich Daten generiert, eingespeist, genutzt, bearbeitet und gespeichert werden können.

Bei etlichen naturwissenschaftlichen Projekten ist die virtuelle Forschungsumgebung transnational organisiert. Dies ist ökonomisch und politisch notwendig: Viele Staaten haben in den riesigen Teilchenbeschleuniger der Genfer Region, die vier weltgrößten Teleskope in der Atacama-Wüste im Norden Chiles oder die aufwendig ausgerüsteten Schiffe zur Erforschung des Klimawandels an Nord- und Südpol investiert und wollen im Gegenzug sicher sein, dass der Datenfluss dieser Projekte optimal genutzt wird und für die unterschiedlichsten Analysen und Fragestellungen zur Verfügung steht.

Wie machen entsprechende Szenarien Sinn in der Welt der Geisteswissenschaften? Auf den ersten Blick scheinen die Unterschiede groß. Aktuell ist es nur theoretisch vorstellbar, dass Philologen oder Musikwissenschafter Fragestellungen entwerfen, die ähnliche Kapitalressourcen, komplexe Datenflüsse und große Rechenkapazitäten erfordern. Während Naturwissenschaftler etwa im Bereich der Klimasimulation an Erhebungen und Auswertungen arbeiten, die komplizierte Algorithmen und entsprechend enorm hohe Rechenleistung zwingend erforderlich machen, widmen sich weite Teile der Geisteswissenschaften Fragestellungen und Themen, die von den Forschern in Einzelarbeit vorgenommen werden oder nicht in dem Maße auf Kooperation und Rechenleistung angewiesen sind.

In der Vernetzung liegt jedoch Potential für die Geisteswissenschaften, soziale und kulturelle Fragen in größeren Kontexten betrachten zu können. Anreize, dieses Potential in Deutschland besser auszuloten, gab die sogenannte „D-Grid“-Initiative der Bundesregierung. Das Bundesministerium für Bildung und Forschung förderte in diesem Rahmen bis dato 36 Verbundprojekte mit mehr als 140 Partnern in Höhe von mehr als 100 Million Euro. Unter den etwa 100 Naturwissenschaftlern und Informatikern, die Gelder aus diesen Mitteln für Grid-Projekte beantragten, befand sich auch ein kleines, gut organisiertes Konsortium von Geisteswissenschaftlern der Hochschulen und Forschungseinrichtungen in Darmstadt, Mannheim, Trier, Worms und Würzburg. Auf Bitten dieses Konsortiums reichte der ehemalige Direktor der Staats- und Universitätsbibliothek Göttingen, Professor Dr. Elmar Mittler, einen Antrag auf Förderung bei D-Grid ein. Das von der Gruppe beantragte Projekt „TextGrid“ ging im Februar 2006 an den Start. Als erstes geisteswissenschaftliches Grid-Projekt hat TextGrid 2006 mit acht Institutionen begonnen, heute sind es zehn.

TextGrid besteht aus zwei Hauptkomponenten, dem TextGridRep (TextGrid Repository) und dem TextGridLab (TextGrid Laboratory). Die Funktionen von TextGridRep richtet sich auf die Publikation und Langzeitarchivierung von Forschungsdaten.

Allein in Deutschland produzieren die Geisteswissenschaften täglich Unmengen verschiedenster Datentypen, weil die einzelnen Fachdisziplinen sehr spezialisiert sind. TextGridRep stellt den Geisteswissenschaften und ihren computergenerierten Daten und Erkenntnissen einen offenen virtuellen Raum bereit, der ihr Material langfristig sichert und den Zugriff auf diese Daten für die kommenden Generationen ermöglicht. Die Wissenschaftler werden hier unterstützt, einheitliche Standards zu verwenden und die Forschungsdaten ausführlich mit Metadaten zu beschreiben.

Die Garantie langfristiger Verfügbarkeit ist ein offensichtliches Plus von TextGridRep, wenngleich auch schwer herzustellen: Werkzeuge und Formate differenzieren sich immer mehr aus und verändern sich ständig. Dies macht das Projekt so ehrgeizig: Es wird in Bezug auf Zusammenarbeit und Kollaborationen dynamisch und in Bewegung bleiben, um genau dadurch die stabile Verlässlichkeit eines Speicherplatzes für Dokumente und Archive bereit zu stellen.

Derzeitige Pläne auf europäischer Ebene sehen die Gründung von geisteswissenschaftlichen Datenarchiven in jedem europäischen Land vor. TextGridRep hat das Potential, als nationales Datenarchiv der Geisteswissenschaften in Deutschland zu fungieren. Eine schwierige Hürde zu diesem Ziel liegt allerdings in der föderalen Struktur Deutschlands. Die Kulturhoheit der Länder lähmt zentrale Organisationsformen, auch dort, wo sie sinnvoll und notwendig sind. Diese ist etwa auch der Grund dafür, warum es noch nicht einmal einen national koordinierten Verbund von Forschungsarchiven gibt.

Die zweite Komponente von TextGrid ist das TextGridLab. Die Software bündelt die Werkzeuge, Dienste und Daten in einer einheitlichen Oberfläche, und ermöglicht die Zusammenarbeit für diejenigen Geisteswissenschaftler, die alte und neue geisteswissenschaftliche Fragestellungen mit Hilfe von „datapower“ bearbeiten möchten.

Es ist nicht leicht, sich solche Großprojekte mit Kollaborationsmöglichkeiten in den Geisteswissenschaften vorzustellen. Es mag jedoch helfen, daran zu erinnern, dass nicht die Natur- sondern die Geisteswissenschaften im 19. Jahrhundert die Großforschung betrieben haben, allen voran Theodor Mommsen mit seinem ehrgeizigen philologischen Akademieprojekt zur Erfassung sämtlicher römischer Inschriften. Hunderte von Wissenschaftlern saßen hier über Jahrzehnte gemeinsam an Unternehmungen, die umfangreiche Mittel erforderten, hohes gesellschaftliches Ansehen genossen und den Nachahmungseifer von Naturwissenschaftlern anregten.

Vor diesem Hintergrund mag sich erklären, dass es auch heute vor allem Philologen sind, die mit Enthusiasmus auf die virtuelle Forschungsumgebung von TextGrid reagieren. Die Vorreiter in den Digital Humanities erwecken dabei nicht den Eindruck, Ideologen geisteswissenschaftlicher Großforschung zu sein.

Tobias Blanke vom Centre for e-Research am King’s College in London erklärt dies so: „Man kann zu wirklich interessanten Ergebnissen gelangen, wenn man sich nicht in die ideologische Debatte begibt, ob heute alle Geisteswissenschaftler mit naturwissenschaftlichen Methoden arbeiten müssen, sondern unvoreingenommen betrachtet, welchen Beitrag die neuen Techniken tatsächlich leisten können. Es ist bemerkenswert, was Computer alles können. Auch wenn man meint, geisteswissenschaftliche Gegenstände seien zu komplex und kontextabhängig, um mit digitalen Methoden erfasst zu werden, muss man zugeben, dass Computer, im großen Stil eingesetzt, erstaunlich viel herausfinden.“

Dr. Heike Neuroth, Leiterin der Forschungsabteilung der SUB Göttingen, schlägt ähnliche Töne an. Bis vor kurzer Zeit bestand ihrer Meinung nach für viele Geisteswissenschaftler kein Grund, mit digitalen Methoden zu arbeiten. Und so werde es für die Mehrheit auch auf absehbare Zeit bleiben. Das Angebot von TextGrid richte sich an diejenigen Nutzer, die sich aus eigenem Interesse entschlossen haben, das Potential der virtuellen Forschungsumgebung zu nutzen. Das Projekt sieht seine Rolle nicht darin, von sich aus Forschungsfelder neu zu definieren oder die Grenzen zwischen Geisteswissenschaften und Technologie aufzulösen.

TextGridLab ermöglicht es unterschiedlichen Nutzern, dieselben Daten zur gleichen Zeit zu bearbeiten. Eine Frage, welche die neue Technologie den Philologen schnell beantworten kann, ist etwa diese: Seit wann, wie oft und in welchem Zusammenhang wurde der Begriff „raison d’etre“ in deutschen Romanen des 19. Jahrhunderts benutzt?

Das ist jedoch nur der Anfang: Maßgeschneiderte Kodierungen an verschiedenste Texte anzulegen, eröffnet einen Weg, entsprechende Fragen nicht nur schnell, sondern auch umfassend zu beantworten: Daten, Metadaten und Annotationen kommen hier zusammen und generieren Forschungsergebnisse, die sehr viel aussagekräftiger sind als Recherchen über herkömmliche Suchmaschinen.

TextGridLab begünstigt Kollaborationen, die größere Erträge bei der Formulierung von Fragen ermöglichen. Für jeden allein arbeitenden Wissenschaftler wäre die Bearbeitung nicht zu bewältigen – ganz wie in der philologischen Großforschung des 19. Jahrhunderts.

Die Verfügbarkeit von großen digitalen Textsammlungen und passenden Analysewerkzeugen macht es möglich, Forschungsfragen schnell über einen längeren Zeitraum zu untersuchen. Entsprechend trainierte Computerprogramme durchsuchen auf eine intelligente Weise Millionen Texte nach einer Hypothese, man könnte dies bald schon „lesen“ nennen. Interessante Treffer können die Forschergruppen genauer prüfen, da jede Fundstelle digital als Volltext vorliegt. Um so forschen zu können, braucht es eine große Datenbasis als Grundlage. Dazu hat TextGrid einen ersten Schritt getan: Der Erwerb der digitalen Bibliothek „Zeno.org“ erlaubt den Zugriff auf deutschsprachige Literatur von 1500 bis in die 1930er Jahre und ist für Forschung und Lehre kostenfrei nutzbar.

Um auf die vorhandenen Texte als qualitative Referenzwerke zugreifen zu können, bedarf es allerdings noch einiger weiterer Schritte: Die Texte müssen klassifiziert und tiefer ausgezeichnet werden, damit komplexe Suchabfragen möglich werden. Daran arbeitet die Universität Würzburg. Im Juni 2011 wird ein erster großer Teil zur Verfügung stehen.

Welche Texte wird TextGrid langfristig zur Verfügung stellen? Der Philologe Professor Dr. Werner Wegstein von der Universität Würzburg, einer der ersten Innovatoren der virtuellen Forschungsumgebung für die Geisteswissenschaften in Deutschland, antwortet auf diese Frage: „Das klassische kulturelle Erbe, in der vollen Breite.“

Angesichts der Tatsache, dass TextGrid von Beginn an völlig neues Territorium kartieren musste, überrascht es nicht, dass der vor vier Jahren beschrittene Weg bisweilen steil und steinig war. Das Konsortium hatte keine Erfahrung im Aufbau eines groß angelegten Projekts. Auch kam es im Zusammenspiel mit den verschiedenen Komponenten zu Problemen, die niemand vorher gesehen hatte.

Dazu gehörte die Komplexität der IT-Infrastruktur wie auch die Schwierigkeit sicher zu stellen, dass die IT Ingenieure wirklich verstanden, was die Geisteswissenschaftler an Software brauchten, um Antworten auf ihre Fragen zu finden.

Es dauerte, eine gemeinsame Sprache zur Lösung dieser Probleme zu finden. Schließlich half die Arbeit in Tandem-Teams von Wissenschaftlern und IT-Experten, nicht zuletzt auch, um die unterschiedlichen Arbeitsstile und Ausdrucksweisen so in Einklang zu bringen, dass Informatiker geisteswissenschaftliche Terminologie und Anforderungen in Programme umsetzen konnten.

Oftmals lag die Lösung der Probleme im Management des Dialogs. Regelmäßige Diskussionen mit den Programmierern und Geisteswissenschaftlern führten zu neuen Lösungen. Dabei wurde, wie Heike Neuroth erläutert, auch eine gemeinsame Terminologie entwickelt.

TextGrid wird seit Januar 2009 in einem öffentlichen Beta-Test erprobt. Damit können Anforderungen der Nutzer frühzeitig in die Entwicklung einbezogen werden. Es zeigte sich auch, dass zu viele gleichzeitige Nutzer eine Instabilität erzeugten. Diese Schwäche war nur durch die Simulation Hunderter gleichzeitiger Zugriffe und Operationen zu erfahren. Das System ist nun stabil und verlässlich im Beta-Test Stadium, gleichzeitig aber flexibel genug, um neue Projekte mit Grund verschiedenen Forschungsfragen aufzunehmen.

TextGrid will einen virtuellen Ort verfestigen, der als stabile Plattform für die Datenanalyse geisteswissenschaftlicher Disziplinen dienen kann. Hierfür allein die politischen und organisatorischen Voraussetzungen zu schaffen, bleibt eine Herausforderung – und zwar nicht nur bei der Abstimmung mit europäischen Forschungsnetzwerken, sondern auch im eigenen Land.

Denn in Deutschland spielen gerade in der Welt von höherer Bildung und Wissenschaft die erwähnten föderalen Strukturen eine überragende Rolle. Dies heißt im konkreten Fall Folgendes: Wissenschaftler aus Göttingen in Niedersachsen können nicht einfach 100 Kilometer entfernte Maschinenkraft einer Partneruniversität in Nordrhein-Westfalen anzapfen, obgleich diese dort zur Verfügung stünde. Die deutsche Kleinstaaterei steht hier als Hindernis einer Welt im Weg, in der selbst Geisteswissenschaftler immer weniger darüber nachdenken, wo sie sitzen, als darüber, dass ihre Daten jederzeit interpretierbar sind.

Für Juni 2011 ist die Freigabe von TextGrid 1.0 geplant. Zu diesem Zeitpunkt werden Forschergruppen an verschiedenen Standorten in ganz Deutschland mit einer Grundausstattung von Software-Werkzeugen arbeiten können. Größere Forschungsverbünde werden die Virtuelle Forschungsumgebung für ihre spezifischen Anforderungen erweitern und anpassen: Blumenbach online etwa, ein Projekt, dass die vollständige Werkedition des einflussreichen Göttinger Mediziners und Naturforschers wie auch die Rekonstruktion seiner Korrespondenzen, naturhistorischen Sammlungen und seiner Rezeption zum Ziel hat; oder Archaeo18, die virtuelle Zusammenführung der Vorlesungsmitschriften des berühmten Göttinger Archäologen und Begründers der klassischen Archäologie, Christian Gottlieb Heyne.

Dann wird sich zeigen, ob TextGrid als virtueller Ort Geisteswissenschaftlern so vertrauenswürdig erscheint, so dass sie institutionelle und nationale Grenzen außer Acht lassen und sich statt dessen auf innovative Forschung in viel größeren Zusammenhängen konzentrieren. Wenn der TextGrid-Forschungsverbund dies schafft, besteht die Chance, weitere Teile der Geistes- und Kulturwissenschaften in eine Epoche kollaborativer digitaler Forschung zu begleiten.

Die größte Herausforderung auf diesem Weg zu einer vielgenutzten Virtuellen Forschungsumgebung ist demnach letztendlich mehr kulturell als technisch: Einen Ort des Vertrauens zu schaffen, an dem Wissenschaftler die Eigentümer ihres geistigen Schaffens bleiben und bei Entscheidungen, welche Daten sie mit wem bearbeiten und wann sie welche Informationen freigeben wollen, das letzte Wort haben. Auf den bevorstehenden Launch von TextGrid 1.0 dürfen wir insofern alle, und nicht nur in deutschen Landen, gespannt sein.

 

1 New York Times: Humanities 2.0 (http://topics.nytimes.com/top/features/books/series/humanities_20/index.html) http://www.nytimes.com/2010/11/17/arts/17digital.html?pagewanted=all&_r=0

 

Zurück zur Pressemappe …

Über Keith Allen

Keith Allen ist Wissenschaftsjournalist.