Dr. Peter Bartelheimer über virtuelle Arbeitsumgebungen und sozialwissenschaftliche Auswertungssyntax

Was sind virtuelle Arbeitsumgebungen?

Bartelheimer: Das versuchen wir gerade herauszufinden. Wir koordinieren am SOFI einen großen sozialwissenschaftlichen Forschungsverbund, den Forschungsverbund sozioökonomische Berichterstattung, und bereiten eine dritte Projektphase vor.. Wir haben dabei die für größere Projekte in den Sozialwissenschaften nicht untypische Situation, dass wir mit verschiedenen Datensätzen aus der Forschungsdateninfrastruktur, aus Forschungsdatenzentren der Statistischen Ämter oder auch aus der Bundesagentur für Arbeit hantieren. Mit der Aus-wertung dieser großen Datenmengen sind Wissenschaftlerinnen und Wissenschaftler beschäf-tigt, die in ganz verschiedenen Forschungseinrichtungen beschäftigt sitzen. Sie kooperieren, sie nutzen die üblichen Kommunikationswege und treffen sich natürlich in bestimmten Ab-ständen. Bei der Arbeit an den gleichen Datensätzen stoßen sie häufig auf gleiche Auswer-tungsprobleme und tauschen auch Syntax für Auswertungsprogramme aus. Und damit stellt sich für uns die Frage, wie solche Kooperationen an räumlich verteilten Arbeitsplätzen IT-gestützt und Internet-basiert besser organisiert und unterstützt werden können.

Was ist Syntax?

Bartelheimer: Sie müssen sich das so vorstellen: Wir arbeiten mit großen Datensätzen wie dem Sozio-oekonomischen Panel oder dem Mikrozensus, der in der Vollversion etwa 800.000 Fälle umfasst. Und das ist noch ein vergleichsweise kleiner Datensatz. Bei den Files der Bundsagentur für Arbeit geht es leicht in den zwei- oder dreistelligen Millionenbereich. Jede Form der Auswertung erfolgt nun über Statistik-Programme, die auf diese Daten zugreifen, sie rekombinieren oder zählen. Das Einfachste wäre die Bildung von Häufigkeitsverteilungen oder Kreuztabellen. Oder man produziert neue Variablen, indem man verschiedene Merkmale miteinander verknüpft. Das ist der harte Kern der Forschungsarbeit. Mit Syntax bezeichnen wir nun Dateien, die Befehlszeilen für Statistikprogramme enthalten. Die Syntax sagt dem Rechner, wie er auf einen bestimmten Datensatz zugreifen und was er mit den Daten machen soll.

Arbeiten Sie in dem Projekt mit Grid-Technologie?

Bartelheimer: Wir wollen mit Grid-Technologie arbeiten und sind im Gespräch mit WissGrid. Wir sind eine der potentiellen neuen Communities, die mit WissGrid an Grid-Technologien und damit auch an die Grid-Initiative herangeführt werden sollen.

Brauchen Sie die Grid-Technologie primär für diese enormen Rechenkapazitäten?

Bartelheimer: Dafür auch, aber wir brauchen sie vor allem dann, wenn mehrere Forscher in verschiedenen Forschungseinrichtung am gleichen Datensatz arbeiten wollen. Bislang tauschen sie die Auswertungssyntax untereinander aus und schicken Zwischenprodukte per Mail hin- und her. Aber die Fehlersuche oder die Diskussion über Lösungen ist sehr mühsam, weil man sich immer nur die Ergebnisse zumailt. Um auch mal an Arbeitsdatensätzen herumzuprobieren, um sich gegenseitig zu zeigen, wie eine Syntax auf einem bestimmten Datensatz läuft, und um Arbeitsdaten und Syntaxmodule nachnutzbar zu archivieren, dafür braucht man Grid.

Führt das nicht zu datenschutzrechtlichen Problemen?

Bartelheimer: Die Datensätze, an denen wir forschen, sind zwar durchweg anonymisiert, enthalten aber trotzdem mitunter sensiblen Daten, auf die wir nur nach Abschluss von Nutzerverträgen zugreifen dürfen. Wenn ich mit anderen Einrichtungen kooperiere, die diesen Nutzervertrag nicht haben, führt das zu einer ganzen Reihe von Problemen: Streng genommen darf ich die Arbeitsdateien, aus denen ich meine Ergebnisdaten produziere, meinen Kolleginnen und Kollegen nicht geben, darf sie nicht damit rechnen lassen. Ein weiteres Problem ergibt sich daraus, dass die meisten Daten uns zunächst als „scientific use files“ auf CD oder DVD zur Verfügung gestellt werden. Darin sind die Daten, um den Datenschutz zu gewährleisten, faktisch anonymisiert. Bestimmte Merkmale sind vergröbert oder nicht enthalten, damit die Reidentifikation durch Rekombination von Datensätzen ausgeschlossen ist. Beim Mikrozensus wird uns für die Arbeit in unseren Instituten überhaupt nur eine Unterstichprobe zur Verfügung gestellt. Wenn ich aber Tabellen, Ergebnisse oder Veröffentlichungen produ-zieren will, die mit den Datenverteilungen in der amtlichen Mikrozensus-Berichterstattung übereinstimmen, müssen sie auf der Grundlage des vollen Datensatzes berechnet sein, entwe-der „on site“ oder auf dem Weg des „Fernrechnens“. Eine Kollegin aus München hat nun bei-spielsweise entsprechend unserer Fragestellung für die scientific use files des Mikrozensus eine Syntax entwickelt. Damit fahre ich dann nach Hannover, um auf dem größeren Datensatz zu rechnen. Dort stelle ich jedoch fest, dass die Syntax, die auf dem „use file“ sinnvolle Er-gebnisse produziert hatte, hier ganz andere, unplausible Ergebnisse hervorbringt. Ob eine Syntax wirklich funktioniert, sieht man eben erst am kompletten Datensatz. Dann muss ich bislang diese Probleme mit der Kollegin am Telefon besprechen. Sie können aber auf ihrem Bildschirm nicht das sehen, was ich sehe. Das ist sehr mühsam und unerquicklich.

Bitte beschreiben Sie eine für Sie ideale virtuelle Arbeitsumgebung.

Bartelheimer: Im Moment würde das so aussehen, dass es in dieser virtuellen Arbeitsumgebung einen Bereich gäbe, in dem ich, wenn ich entsprechende Nutzungsrechte bei dem Datenhalter oder dem jeweiligen Forschungsdatenzentrum beantragt habe, von meinem individuellen Arbeitsplatz aus auf Forschungsdaten virtuell zugreifen kann. Dort kann ich meine eigenen Arbeitsdateien auch speichern und sie entsprechend den mit den Datenhaltern verabredeten Zugangsbeschränkungen Anderen zur Verfügung stellen. Zugleich enthält diese Ar-beitsumgebung Syntaxbausteine für die verschiedenen verfügbaren Statistikprogramme, so dass ich sehe, für welche Datensätze und für welche Probleme oder Variablen Syntax zur Ver-fügung steht, und welche Kollegen sie bereits mit welchem Erfolg eingesetzt haben.

Die Fragen stellte Esther Lauer.

Zurück zur Pressemappe …