Vom Urknall zu den Stasi-Akten – Grid-Technologie in den Wissenschaften

Von Esther Lauer

Die Einen erforschen ein Herzmedikament und entwickeln aus Versehen ein Potenzmittel. Andere wollen eigentlich den Urknall simulieren und erfinden ganz nebenbei das Internet und die Grid-Technologie. Nun wissen wir alle, wofür Viagra und das Internet gut sind – aber was ist Grid-Technologie und wozu braucht man sie?

Die Urknall-Forscher am europäischen Forschungszentrum Cern standen vor dem Problem, dass die laufenden Experimente derart gigantische Mengen an Daten ausspuckten, dass selbst ihre enormen Großrechner überfordert waren. Um der Datenflut Herr zu werden, entwickelten sie eine Methode, mehrere Hochleistungsrechner an verschiedenen Orten lose zu einem virtuellen Supercomputer zu koppeln.

„Grid Computing“ – von engl. Grid = Raster oder Gitternetz – wird inzwischen neben zahlreichen kommerziellen Anwendungen im elektronischen Handel, in Webdiensten und Finanzmanagement für ganz unterschiedliche Forschungsvorhaben eingesetzt. Das Bundesministerium für Bildung und Forschung fördert in der Deutschen Grid-Initiative, kurz D-Grid, seit 2005 den Aufbau und Betrieb einer Grid-Plattform für die Wissenschaften. Dort gibt es Projekte zur Erforschung alternativer Energien, zur Luftfahrtforschung, für Businessanwendungen der Autoindustrie, für die biomedizinischen Wissenschaften und zu Klimadaten, um nur einige zu nennen. Sozialwissenschaftler ganz verschiedener Forschungseinrichtungen können hier gemeinsam über großen Datensätzen der statistischen Ämter oder der Bundesagentur für Arbeit brüten.

Verblüffen mag, dass sich auch Geistes- und Kulturwissenschaftler für gridunterstütztes Forschen interessieren, obwohl die Datenmengen bei ihnen zurzeit noch meist überschaubar bleiben. Im Forschungsverbund TextGrid loten sie die Möglichkeiten aus, ihr Wissen zu vernetzen, etwa durch die Bereitstellung digital aufbereiteter Nachschlagewerke und Textkorpora in Virtuellen Arbeitsumgebungen. Dort angebotene Visualisierungs-Werkzeuge erleichtern ihnen die grafische Darstellung von Zusammenhängen, zum Beispiel, mit wem Goethe vernetzt war, und moderne Plagiat-Erkennungs-Software gibt Hinweise darauf, von wem er sich inspirieren ließ. Bei Musikwissenschaftlern oder Editionsphilologen entstehen Forschergruppen, deren Mitglieder von verschiedenen Orten aus am selben Projekt zusammenarbeiten. Dr. Sigrun Eckelmann von der DFG begrüßt besonders die Annäherung von Geistes- und Naturwissenschaften, denn es ist ein erklärtes Förderziel, „dass die Virtuellen Forschungsumgebungen die Entwicklung interdisziplinärer Forschungsgemeinschaften erleichtern. Neuerdings gibt es Gemeinschaftsprojekte von Disziplinen, die früher nichts miteinander zu tun hatten, zum Beispiel Linguisten und Biologen oder Klimaforscher und Historiker. So etwas ist jetzt möglich und das ist eine gravierende qualitative Änderung.“

Mit großem Erfolg setzt man Grid-Technologie auch bei der Aufarbeitung von Stasi-Akten ein, Akten, die die Spitzel der DDR-Staatssicherheit eigentlich für immer vernichten wollten. Sie hinterließen, als ihre Dienststellen gestürmt wurden, säckeweise Papierschnipsel. Zuerst hatten sie Berge von sensiblen Akten maschinell geschreddert, dann, als die Schredder versagten, von Hand in Fetzen gerissen – ein Riesen-Puzzel, an dem 30 Vollzeit-Sortierer 600 Jahre zu knobeln hätten. Jenen zuliebe, die ihre Verfolgungsgeschichte nachvollziehen wollen, und denen zum Trotz, die ihre Untaten lieber geheim gehalten hätten, wurde der Schnipselberg nicht weggeworfen, sondern archiviert, bis die notwendige Rekonstruktionstechnik zur Verfügung stand. Und siehe da, die Technologie des Cern ermöglicht heute einem Team des Fraunhofer-Instituts für Produktionsanlagen und Konstruktionstechnik IPK in Berlin, einen „ePuzzler“ zur automatisierten virtuellen Rekonstruktion von beschädigten Dokumenten zu entwickeln, der diese Arbeit übernimmt. In einem Pilotprojekt haben sie einen Hochleistungsscanner gebaut, der mehrere tausend Schnipsel pro Stunde automatisch einzieht und beidseitig einscannt. Danach sortiert der gridbasierte „ePuzzler“ die digitalisierten Schnipsel ähnlich, wie ein Mensch das tun würde: nach Papierfarbe, Schrift, Linierung und Kontur. Anhand solcher Merkmale wird der Suchraum reduziert und in Untermengen zusammengefasst. Innerhalb dieser reduzierten Datenmenge findet das „Matchen“ also die eigentliche Rekonstruktion, statt: Die Konturen der Schnipsel werden auf Merkmalsübereinstimmung verglichen und passende Schnipsel zu einem größeren Teil zusammengefügt, dessen Merkmale erneut berechnet werden. So entstehen Seite für Seite die einst zerrissenen Stasi-Akten wieder. „Die sehr moderne gridbasierte Hardware ermöglicht es, die Prozesse massiv zu beschleunigen“, erklärt der Projekteiter Dr.-Ing. Bertram Nickolay. Inzwischen puzzelt die Anlage so effizient, dass man mit ihrer Hilfe die 600 Millionen Papierstückchen innerhalb von circa 10 Jahren zu lesbaren Akten zusammensetzen kann.

Als die Physiker am Cern eine Lösung für ihr Datenmengen-Problem suchten, ahnten sie nicht, dass ihre Entwicklung einmal zur Rekonstruktion von zerrissenen Stasi-Akten beitragen würde. Aber das ist Wissenschaft: Man weiß vorher nicht, was dabei herauskommt.

Zurück zur Pressemappe …

Über Esther Lauer

Esther Lauer ist Wissenschaftsjournalistin.