Die Digitale Bibliothek bei TextGrid

Die "Digitale Bibliothek" im TextGrid Repository bietet eine umfangreiche Sammlung XML/TEI-erschlossener Texte aus Belletristik und Sachliteratur vom Anfang des Buchdrucks bis zu den ersten Jahrzehnten des 20. Jahrhunderts in digitaler Form. Für die germanistische Literaturwissenschaft ist die Sammlung von besonderem Interesse, da sie nahezu alle wichtigen kanonisierten Texte und zahlreiche weitere literaturhistorisch relevante Texte enthält, deren urheberrechtliche Schutzfrist abgelaufen ist. Ähnliches gilt für die Philosophie und die Kulturwissenschaften insgesamt. Die Texte stammen zum größten Teil aus Studienausgaben und sind daher, ebenso wie die auf der Digitalisierung von Erstdrucken basierenden Texte, zitierfähig.

Sachgebiete

Die Texte der im Rahmen der Digitalen Bibliothek von TextGrid erworbenen Online-Bibliothek von zeno.org gliedern sich in die Kategorien

  • Literatur (Texte von 693 Autoren)
  • Märchen (58 Texte)
  • Geschichte (14 Texte)
  • Kulturgeschichte (113 Texte)
  • Kunst (12 Texte)
  • Musik (81 Texte)
  • Naturwissenschaften (20 Texte)
  • Philosophie (248 Texte)
  • Soziologie (1 Text)
  • Nachschlagewerke (27 Texte)

TextGrid stellt diese Texte der allgemeinen Öffentlichkeit nicht nur zur Lektüre, sondern vor allem auch zur Weiterverarbeitung z.B. in Editionen und Korpora zur Verfügung. Dafür wurden die XML-Dateien in ein gültiges TEI-Format konvertiert, das die Möglichkeit einer genauen Recherche bietet.

Sammlung "Literatur"

Bereits im Repository verfügbar ist der sogenannte „Literaturordner“, der belletristische Texte für die wissenschaftliche Verwendung aufbereitet, d.h. in XML/TEI und für avancierte Recherchen ausgezeichnet, enthält. Philosophische Texte und Lexika folgen.

Informationen zum Korpus

Korpusaufbereitung
Bei den Transformationen wurde das ursprüngliche Zeno-XML-Mark-up in die entsprechenden TEI-Tags umgewandelt. Daneben wurde versucht, auf der Basis bestimmter im Mark-up oder im Text auftretender Strukturen weiteres Mark-up hinzuzufügen (z.B. lg-Gruppierung, speaker etc.). Die dabei angewandten Heuristiken sind auf Grund der eingeschränkten Überschaubarkeit so großer Datenmengen schematisch und unspezifisch gehalten, weshalb es in einigen Fällen zu einer fehlerhaften Interpretation kommen kann. Um solche oder ähnliche Fehlerquellen schrittweise zu entfernen, wird der Literaturordner von uns kontinuierlich überarbeitet und steht deshalb in verschiedenen Versionen zu Verfügung.

Metadaten
Die Extraktion von Metadaten aus den bibliografischen Angaben zu den Werken der AutorInnen erwies sich als besonders schwierig: Zu der Vielfalt der unterschiedlichen Quellenarten kommt eine z.T. uneinheitliche Erfassung der bibliografischen Angaben. So stehen z.B. der Titel eines Werkes, Jahrgänge, Verlag etc. in unterschiedlicher Reihenfolge und können durch Komma oder Punkt voneinander getrennt sein. Datumsangaben sind nur zum Teil vorhanden und haben unterschiedliche Formate. Folgende Metadaten konnten extrahiert werden:

  • AutorIn: sourceDesc/biblFull/titleStmt/author, PND im Attribut „key“
  • Werktitel: fileDesc/titleStmt/title
  • Datumsangaben: Wenn ein eindeutiges Entstehungsdatum extrahierbar war, wurde dieses getaggt mit: sourceDesc/biblFull/publicationStmt/date. Ist kein eindeutiges Entstehungsdatum vorhanden, wurde versucht den Entstehungszeitraum durch die Angabe <date notBefore=„…“ notAfter=„…“> einzuschränken. Dazu wurden die Geburtsdaten und eventuelle Angaben zur (Erst-) Veröffentlichung verwendet. Die Angaben sind jeweils so ausgewertet, dass in den beiden Attributen „notBefore“ und „notAfter“ der kleinste sinnvolle Zeitraum kodiert wird.
  • Gesamte vorhandene bibliografische Angabe als String: sourceDesc/biblFull/titleStmt/title.

Momentan wird weiterhin an der Extraktion von Metadaten gearbeitet, um diese noch feiner strukturiert kodieren zu können.

Download

Über die folgenden Links können Sie den Gesamtdatenbestand des Literaturordners sowie ein Schema zu den Daten downloaden.
Download der veröffentlichten Dateien: Texte und Bilder (Version I) (1,9 GB)
Download Texte Korpus Version I (391 MB)

Download Texte Korpus Version II (390 MB)
Download des Schemas (Git-Repository)

Angaben zu den Versionen

In den Originaldaten sind Werke, Sammlungen, Kapitel und andere Texteinheiten sowie auch Überschriften u.Ä. rekursiv mit einem einzigen Tag (article-Element) kodiert. Die Verschachtelung dieser article-Elemente ist mehrdeutig, und es ist nicht einfach festzustellen, wann ein article-Element einen ganzen Text, ein Kapitel, eine Widmung, ein Motto oder gar nur Überschriften und weitere Metaangaben beinhaltet. In der ersten Version des Korpus waren deshalb z.T. auch einzelne Überschriften innerhalb eines eigenen TEI-Elements kodiert. Dieser Fehler wurde versucht in Korpus II zu beheben, die entsprechenden Angaben sind nun im front-Element kodiert.

Die Digitale Bibliothek im Repository

Im TextGrid Repository werden die Daten in größeren Zeitabständen aktualisiert. Es ist geplant, das Portal langfristig interaktiv zu gestalten, so dass sich AnwenderInnen über eventuelle Kodierungsungenauigkeiten informieren können. Wenn Sie bereits vorher über bekannte Schwierigkeiten im Korpus informiert werden wollen, wenden Sie sich bitte per E-Mail an thorsten.vitt@uni-wuerzburg.de.
Im TextGrid Repository finden Sie derzeit die Texte des „Literaturordners“; die Sammlungen Philosophie und Lexika sollen folgen.

Geplante Funktionen des Portals

  • Download von selbst zusammengestellten Subkorpora.
  • Suche: Suche innerhalb von Zeiträumen; Suchergebnisse sollen innerhalb ihres Kontextes (ca. 4 Zeilen) heruntergeladen werden können; Verbesserung der Möglichkeiten zur Einschränkung der Suche auf ein bestimmtes Subkorpus.
  • Kommunikation der NutzerInnen: Verlinkung zu Forschungsprojekten und Veröffentlichungen, die auf der Digitalen Bibliothek basieren; Mailingliste.

Portalkorpus und Gesamtkorpus

Portalkorpus
Um das Korpus in das TextGrid-Repository einzuspielen, wurden die Gesamtdateien auf der teiCorpus-Ebene und der TEI-Ebene gesplittet. Die auch im teiHeader verfügbaren Metadaten wurden dabei in mehreren Metadatendateien erfasst.
Beim Einspielen der Dateien in das Repository werden PIDs vergeben (s.u. Known Bugs).

Im Portal befindet sich derzeit die gesplittete Version des Korpus II.

Gesamtkorpus
Das Gesamtkorpus enthält jeweils nur eine einzige Datei pro AutorIn. Werke, Sammlungen oder auch Texteinheiten wie z.B. Kapitel sind durch TEI-Elemente bzw. teiCorpus-Elemente erfasst.

Das Gesamtkorpus enthält keine PIDs. Stattdessen wird als Identifier für die jeweilige Version der Autorname, die Position des TEI- oder des teiCorpus-Elementes zusammen mit dem Generierungszeitpunkt angegeben (idno type=„FileCreationTime“).

Bekannte Bugs
Aus technischen Gründen wird die PID zurzeit in den Texten nicht mit ausgeliefert, ist aber über die Metadaten verfügbar und wird baldmöglichst nachgetragen.
Es liegen semantisch falsche Auszeichnungen bei speaker, lg und closer vor.

Bei den Transformationen wurde versucht, nicht zum Text gehörige Metadaten wie mehrfachkodierte Überschriften o.Ä. zu entfernen. In einigen Fällen wurden dabei versehentlich kleine einführende oder abschließende Textfragmente entfernt. Dazu gehören z.B. Akt- oder Szenenüberschriften, Regieanweisungen, Vorwörter und Anhänge. Wir arbeiten daran, diesen Fehler zu beheben und eine Auflistung der betroffenen Werke zu erstellen.

Sollten Sie Fehler oder Mängel in den Auszeichnungen oder in der Funktionalität des Portals feststellen, bitten wir um Mitteilung (E-Mail: thorsten.vitt@uni-wuerzburg.de). Bitte geben Sie dabei die URL und den genauen Kontext des Fehlers an.

Lizenzierung

Der Verlag Editura (der zeno.org betreibt) hat gemeinfreie Texte digitalisiert und in XML ausgezeichnet. Dadurch sind dem Verlag Leistungsschutzrechte für die Digitalisierung, Zusammenstellung und Auszeichnung entstanden. TextGrid hat eine Lizenz erworben, diese digitale und angereicherte Textsammlung nutzen zu dürfen, unter der Bedingung, dass Editura genannt wird (Creative Commons Lizenz „by“ Version 3.0).
Um den annotierten Datenbestand inklusive Metdatendaten möglichst wenig restriktiv weitergeben zu können, stellt ihn TextGrid ebenfalls unter der Creative Commons Lizenz „by“ Version 3.0 zur Verfügung. Die reinen Texte ohne Annotation und Metadaten sind allgemeinfrei.

Eine bereits bestehende Allgemeinfreiheit der Texte bleibt von der Lizensierung unberührt. Durch die Aufbereitung, die Strukturierung der Texte und die Bearbeitung der Metadaten hat TextGrid eine neue Datenbank erstellt, die nach dem Urheberrecht automatisch Leistungsschutzrechten eigener Art unterliegt. Auch diese Rechte sind durch die Creative Commons Lizenz „by“ Version 3.0 geregelt.
Der Datenbestand der Digitalen Bibliothek darf somit
:

  • vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden
  • Abwandlungen und Bearbeitungen des Inhaltes angefertigt
  • kommerziell genutzt werden

Siehe: http://creativecommons.org/licenses/by/3.0/de/
Dabei muss TextGrid in der folgenden Form genannt werden: TextGrid

Bei Weitergabe von geschützten Daten dieses Datenbestandes ist den Daten folgende Information beizufügen: Das Werk Titel von Name ist eine Abwandlung des Datenbestandes der Digitalen Bibliothek von TextGrid, www.editura.de und wird unter der Creative Commons Lizenz veröffentlicht.

Arbeitsschritte

Durchgeführte Arbeitsschritte

  • Strukturanalyse der Textdaten: Die Daten sind in Ordnern nach Wörterbüchern und Enzyklopädien bzw. nach Gebieten (Geschichte, Kulturgeschichte, Kunst, Literatur, Märchen, Musik, Naturwissenschaften, Philosophie, Soziologie) organisiert; jeder Ordner enthält Unterordner, i.d.R. einen Unterordner pro AutorIn, der alle Werke des/der AutorIn in einer Datei vereinigt.
  • Anreicherung der Originaldaten (ID, Werksinformation, Disambiguierung der Struktur)
  • Extraktion der Metadaten: Die Metadaten zu den einzelnen Werken befinden sich in verschiedenen Dateien: die Information über die Digitalisierungsquelle ist in einer externen Katalogdatei ausgelagert, die Informationen über Ort und Zeit der Veröffentlichung stehen als unstrukturierter Freitext zu Beginn der Autordatei. Eine eigene Transformationsroutine ordnet alle einem Werk zugehörige Metadaten diesem zu.
  • Manuelle Auszeichnung der Werkebene: Die Auszeichnung lässt keine automatische Trennung der Daten in einzelne Werke zu, weswegen die Werkinformation (zunächst für den Literaturordner, über 120000 Einzelwerke) manuell hinzugefügt wurde. Dazu musste ein User Interface zur Anzeige und Weiterverarbeitung der Daten geschaffen werden.
  • Filterung der Dateien nach Textsorte: Für den Literaturordner müssen die einzelnen Werke nach Textsorte sortiert werden um textsortenspezifische Konvertierungsroutinen entwickeln zu können. Hierbei konnte das bereits bestehende User Interface entsprechend erweitert werden.
  • Spezifikationen für das Mapping der Textsorten Lyrik, Prosa und Drama.
  • Entwicklung von Transformationsroutinen für das Mapping der einzelnen Textsorten des Literaturordners auf TEI P5
  • Strukturumformung von <div> nach <teiCorpus>
  • Kodierung maschinell extrahierbarer Metadaten im <teiHeader>
  • Erste Anpassung der Datenstruktur auf die TextGrid-Architektur
  • Einbindung des Wörterbuchs von Adelung und Meyers Konversationslexikon in das Trierer Wörterbuchnetz
  • Erstellung von Routinen für das Mapping des Wörterbuchs von Adelung auf TEI P5

Geplante Arbeitsschritte

  • Verfeinerung der Metadaten, Entwicklung eines User Interfaces zur manuellen Korrektur der Metadaten
  • Fehleranalyse der TEI-Auszeichnung und Korrekturen
  • Optimierung Datenstruktur hinsichtlich der TextGrid-Architektur
  • Weitere Strukturerschließung der Texte und tiefere TEI-Auszeichnung
  • Vergabe von persistenten Identifiern für jede Werkebene
  • Anwendung und ggf. Anpassung der Transformationsroutinen auf die übrigen Ordner und Wörterbücher der Digitalen Bibliothek

Förderhinweis

Die vorliegende Textsammlung wurde im Rahmen des Forschungsprojekts TextGrid (www.textgrid.de, Förderkennzeichen: 01UG1203A) mit Mitteln des BMBF (Bundesministerium für Bildung und Forschung) erworben. Wir bitten im Falle der Nachnutzung des Datenbestandes diesen Förderhinweis den Daten beizulegen.