TextGrid
Über TextGrid
Die Digitale Bibliothek bei TextGrid

Die Digitale Bibliothek bei TextGrid

Die „Digitale Bibliothek“ im TextGrid Repository bietet eine umfangreiche Sammlung XML/TEI-erschlossener Texte aus Belletristik und Sachliteratur vom Anfang des Buchdrucks bis zu den ersten Jahrzehnten des 20. Jahrhunderts, die in deutscher Sprache verfasst oder übersetzt wurden. Für die germanistische und vergleichende Literaturwissenschaft ist die Sammlung von besonderem Interesse, da sie nahezu alle wichtigen kanonisierten Texte und zahlreiche weitere literaturhistorisch relevante Texte enthält, deren urheberrechtliche Schutzfrist abgelaufen ist. Ähnliches gilt für die Philosophie und die Kulturwissenschaften insgesamt. Die Texte stammen zum größten Teil aus Studienausgaben und sind daher, ebenso wie die auf der Digitalisierung von Erstdrucken basierenden Texte, zitierfähig. Auf bekannte Errata, die aus der Vorlage stammen, verweisen wir unter der Dokumentation zum TextGrid Repository.

Sachgebiete

Die Texte der im Rahmen der Digitalen Bibliothek von TextGrid erworbenen Online-Bibliothek von zeno.org gliedern sich in die Kategorien

Literatur (rund 94 000 Texte von 693 Autor*innen)
Märchen (58 Texte)
Geschichte (14 Texte)
Kulturgeschichte (113 Texte)
Kunst (12 Texte)
Musik (81 Texte)
Naturwissenschaften (20 Texte)
Philosophie (248 Texte)
Soziologie (1 Text)
Nachschlagewerke (27 Texte)

TextGrid stellt diese Texte der allgemeinen Öffentlichkeit nicht nur zur Lektüre, sondern vor allem auch zur Weiterverarbeitung z. B. in Editionen und Korpora zur Verfügung. Dafür wurden die XML-Dateien in ein gültiges TEI-Format konvertiert, das die Möglichkeit einer genauen Recherche und Analyse bietet.

Informationen zum Korpus

Korpusaufbereitung

Bei den Transformationen wurde das ursprüngliche, primär auf Präsentation ausgerichtete Zeno-XML-Markup in die jeweils entsprechenden TEI-Tags umgewandelt. Daneben wurde versucht, auf der Basis bestimmter im Markup oder im Text auftretender Strukturen weiteres Markup hinzuzufügen (z. B. die Erkennung von Versstrukturen und ihre Gruppierung in Strophen (lg), Sprecher (speaker) und Sprechakte (sp) bei Dramen etc.). Die dabei angewandten Heuristiken sind auf Grund der eingeschränkten Überschaubarkeit so großer Datenmengen schematisch und unspezifisch gehalten, weshalb es in einigen Fällen zu einer fehlerhaften Interpretation kommen kann. Um solche oder ähnliche Fehlerquellen schrittweise zu entfernen, wird der Literaturordner von uns kontinuierlich überarbeitet und steht deshalb in verschiedenen Versionen zu Verfügung.

Metadaten

Die Extraktion von Metadaten aus den bibliografischen Angaben zu den Werken der Autor*innen erwies sich als besonders schwierig: Zu der Vielfalt der unterschiedlichen Quellenarten kommt eine z. T. uneinheitliche Erfassung der bibliografischen Angaben. So stehen z. B. der Titel eines Werkes, Jahrgänge, Verlag etc. in unterschiedlicher Reihenfolge und können durch Komma oder Punkt voneinander getrennt sein. Datumsangaben sind nur zum Teil vorhanden und haben unterschiedliche Formate. Folgende Metadaten konnten extrahiert werden:

AutorIn: sourceDesc/biblFull/titleStmt/author, PND im Attribut “key”
Werktitel: fileDesc/titleStmt/title
Datumsangaben: Wenn ein eindeutiges Entstehungsdatum extrahierbar war, wurde dieses getaggt mit: sourceDesc/biblFull/publicationStmt/date. Ist kein eindeutiges Entstehungsdatum vorhanden, wurde versucht den Entstehungszeitraum durch die Angabe <date notBefore="…" notAfter="…"> einzuschränken. Dazu wurden die Geburtsdaten und eventuelle Angaben zur (Erst-) Veröffentlichung verwendet. Die Angaben sind jeweils so ausgewertet, dass in den beiden tributen “notBefore” und “notAfter” der kleinste sinnvolle Zeitraum kodiert wird.
Gesamte vorhandene bibliografische Angabe als String: sourceDesc/biblFull/titleStmt/title.

Download

Über die folgenden Links können Sie den Gesamtdatenbestand des Literaturordners sowie ein Schema zu den Daten downloaden.

Download der veröffentlichten Dateien: Texte und Bilder (Version I) (1,9 GB)
Download Texte Korpus Version I (391 MB)
Download Texte Korpus Version II (390 MB)
Download des Schemas (Git-Repository)

Angaben zu den Versionen

In den Originaldaten sind Werke, Sammlungen, Kapitel und andere Texteinheiten sowie auch Überschriften u.ä. rekursiv mit einem einzigen Tag (article-Element) kodiert. Die Verschachtelung dieser article-Elemente ist mehrdeutig, und es ist nicht einfach festzustellen, wann ein article-Element einen ganzen Text, ein Kapitel, eine Widmung, ein Motto oder gar nur Überschriften und weitere Metaangaben beinhaltet. In der ersten Version des Korpus waren deshalb z.T. auch einzelne Überschriften innerhalb eines eigenen TEI-Elements kodiert. Dieser Fehler wurde versucht in Korpus II zu beheben, die entsprechenden Angaben sind nun im front-Element kodiert.

Die Digitale Bibliothek im TextGrid Repository

Portalkorpus und Gesamtkorpus

Portalkorpus

Um das Korpus in das TextGrid-Repository einzuspielen, wurden die Gesamtdateien auf der teiCorpus-Ebene und der TEI-Ebene gesplittet. Die auch im teiHeader verfügbaren Metadaten wurden dabei in mehreren Metadatendateien erfasst.

Beim Einspielen der Dateien in das Repository werden PIDs vergeben (s.u. Known Bugs).

Im Portal befindet sich derzeit die gesplittete Version des Korpus II.

Gesamtkorpus

Das Gesamtkorpus enthält jeweils nur eine einzige Datei pro Autor*in. Werke, Sammlungen oder auch Texteinheiten wie z. B. Kapitel sind durch TEI-Elemente bzw. teiCorpus-Elemente erfasst.

Das Gesamtkorpus enthält keine PIDs. Stattdessen wird als Identifier für die jeweilige Version der Autorname, die Position des TEI- oder des teiCorpus-Elementes zusammen mit dem Generierungszeitpunkt angegeben (idno type=“FileCreationTime”).

Bekannte Bugs

Aus technischen Gründen wird die PID zurzeit in den Texten nicht mit ausgeliefert, ist aber über die Metadaten verfügbar und wird baldmöglichst nachgetragen.

Es liegen teils semantisch falsche Auszeichnungen bei speaker, lg und closer vor.

Bei den Transformationen wurde versucht, nicht zum Text gehörige Metadaten wie mehrfachkodierte Überschriften o. Ä. zu entfernen. In einigen Fällen wurden dabei versehentlich kleine einführende oder abschließende Textfragmente entfernt. Dazu gehören z. B. Akt- oder Szenenüberschriften, Regieanweisungen, Vorwörter und Anhänge. Wir arbeiten daran, diesen Fehler zu beheben und eine Auflistung der betroffenen Werke zu erstellen.

Sollten Sie Fehler oder Mängel in den Auszeichnungen oder in der Funktionalität des Portals feststellen, bitten wir um Mitteilung (E-Mail: thorsten.vitt@uni-wuerzburg.de). Bitte geben Sie dabei die URL und den genauen Kontext des Fehlers an.

Es gibt einen Bugtracker (https://gitlab.gwdg.de/dariah-de/textgrid-digitale-bibliothek/-/issues), der öffentlich einsehbar ist. Errata im Sinne von „Druckfehlern” werden unter der entsprechenden Rubrik in der Dokumentation aufgeführt.

Lizenzierung

Der Verlag Editura (der zeno.org betreibt) hat gemeinfreie Texte digitalisiert und in XML ausgezeichnet. Dadurch sind dem Verlag Leistungsschutzrechte für die Digitalisierung, Zusammenstellung und Auszeichnung entstanden. TextGrid hat eine Lizenz erworben, diese digitale und angereicherte Textsammlung nutzen zu dürfen, unter der Bedingung, dass Editura genannt wird (Creative Commons Lizenz „by“ Version 3.0).

Um den annotierten Datenbestand inklusive Metdatendaten möglichst wenig restriktiv weitergeben zu können, stellt ihn TextGrid ebenfalls unter der Creative Commons Lizenz „by“ Version 3.0 zur Verfügung. Die reinen Texte ohne Annotation und Metadaten sind allgemeinfrei.

Eine bereits bestehende Allgemeinfreiheit der Texte bleibt von der Lizensierung unberührt. Durch die Aufbereitung, die Strukturierung der Texte und die Bearbeitung der Metadaten hat TextGrid eine neue Datenbank erstellt, die nach dem Urheberrecht automatisch Leistungsschutzrechten eigener Art unterliegt. Auch diese Rechte sind durch die Creative Commons Lizenz „by“ Version 3.0 geregelt.

Der Datenbestand der Digitalen Bibliothek darf somit:

vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden
Abwandlungen und Bearbeitungen des Inhaltes angefertigt
kommerziell genutzt werden

Siehe: http://creativecommons.org/licenses/by/3.0/de/

Dabei muss TextGrid in der folgenden Form genannt werden: TextGrid

Bei Weitergabe von geschützten Daten dieses Datenbestandes ist den Daten folgende Information beizufügen:

Das Werk [Titel] von [Name] ist eine Abwandlung des Datenbestandes der Digitalen Bibliothek von TextGrid, www.editura.de und wird unter der Creative Commons Lizenz veröffentlicht.

Arbeitsschritte

Durchgeführte Arbeitsschritte

Strukturanalyse der Textdaten: Die Daten sind in Ordnern Wörterbüchern und Enzyklopädien bzw. nach Gebieten (Geschichte, Kulturgeschichte, Kunst, Literatur, Märchen, Musik, Naturwissenschaften, Philosophie, Soziologie) organisiert; jeder Ordner enthält Unterordner, i.d.R. einen Unterordner pro Autor*in, der alle Werke des/der Autor*in in einer Datei vereinigt.
Anreicherung der Originaldaten (ID, Werksinformation, Disambiguierung der Struktur)
Extraktion der Metadaten: Die Metadaten zu den einzelnen Werken befinden sich in verschiedenen Dateien: die Information über die Digitalisierungsquelle ist in einer externen Katalogdatei ausgelagert, die Informationen über Ort und Zeit der Veröffentlichung stehen als unstrukturierter Freitext zu Beginn der Autordatei. Eine eigene Transformationsroutine ordnet alle einem Werk zugehörige Metadaten diesem zu.
Manuelle Auszeichnung der Werkebene: Die Auszeichnung lässt keine automatische Trennung der Daten in einzelne Werke zu, weswegen die Werkinformation (zunächst für den Literaturordner, über 120000 Einzelwerke) manuell hinzugefügt wurde. Dazu musste ein User Interface zur Anzeige und Weiterverarbeitung der Daten geschaffen werden.
Filterung der Dateien nach Textsorte: Für den Literaturordner müssen die einzelnen Werke nach Textsorte sortiert werden um textsortenspezifische Konvertierungsroutinen entwickeln zu können. Hierbei konnte das bereits bestehende User Interface entsprechend erweitert werden.
Spezifikationen für das Mapping der Textsorten Lyrik, Prosa und Drama.
Entwicklung von Transformationsroutinen für das Mapping der einzelnen Textsorten des Literaturordners auf TEI P5
Strukturumformung von <div> nach <teiCorpus>
Kodierung maschinell extrahierbarer Metadaten im <teiHeader>
Erste Anpassung der Datenstruktur auf die TextGrid-Architektur
Einbindung des Wörterbuchs von Adelung und Meyers Konversationslexikon in das Trierer Wörterbuchnetz
Erstellung von Routinen für das Mapping des Wörterbuchs von Adelung auf TEI P5

Geplante Arbeitsschritte

Verfeinerung der Metadaten, Entwicklung eines User Interfaces zur manuellen Korrektur der Metadaten
Fehleranalyse der TEI-Auszeichnung und Korrekturen
Optimierung Datenstruktur hinsichtlich der TextGrid-Architektur
Weitere Strukturerschließung der Texte und tiefere TEI-Auszeichnung
Anwendung und ggf. Anpassung der Transformationsroutinen auf die übrigen Ordner und Wörterbücher der Digitalen Bibliothek

Förderhinweis

Die vorliegende Textsammlung wurde im Rahmen des Forschungsprojekts TextGrid (Förderkennzeichen: 01UG1203A) mit Mitteln des BMBF (Bundesministerium für Bildung und Forschung) erworben. Wir bitten im Falle der Nachnutzung des Datenbestandes diesen Förderhinweis den Daten beizulegen.