8. Juni 2017 |

Zahlen, die sprechen: Seit der Lochkarte hat sich die informationstechnische Verarbeitung von Massendaten revolutioniert

50 Jahre IAB sind gleichzeitig auch 50 Jahre Datenerhebung und Datenverarbeitung im Wandel der Zeit. Und es hat sich wahrlich viel verändert seit 1967. Was heute im Prozessieren von Zahlen Gang und Gäbe ist, klang in den Anfangsjahren des IAB noch nicht einmal nach Zukunftsmusik. Helmut Rudolph, früherer Leiter der Forschungsgruppe „Dynamik in der Grundsicherung“ und Pionier der Mikrodaten am IAB, und Dr. Jürgen Passenberger, ehemaliger Leiter des Geschäftsbereichs „IT- und Informationsmanagement“ – heute „Daten- und IT-Management“ (DIM) – vergegenwärtigen eine Zeit, in der die Datenspeicherung auf Lochkarten von den ersten Großrechnern abgelöst wurde, und sie schlagen eine Brücke in das von Bits und Bytes bestimmte Jetzt. Die Forschungsmöglichkeiten sind am IAB mit den Jahren immer besser geworden, nicht zuletzt weil sich die Archivierungs- und Auswertungsmöglichkeiten von Daten stetig weiterentwickelt haben. Doch auch heute steht das IAB in dieser Hinsicht vor großen Herausforderungen. Das schildern Dana Müller, Leiterin des Forschungsdatenzentrums der BA im IAB, Prof. Dr. Frauke Kreuter, Leiterin des Kompetenzzentrums Empirische Methoden, und DIM-Leiter Ali Athmani.

Das Geschehen auf dem Arbeitsmarkt wirft viele Fragen auf, zu deren Beantwortung in der Wissenschaft zahlreiche Theorien und Thesen entwickelt wurden und werden. Welche davon am ehesten der Realität entsprechen, muss empirisch überprüft werden. Das geht nur mit Daten – mit vielen und präzisen Daten über den Arbeitsmarkt und die dort handelnden Akteure.

Das IAB verfügt durch seine institutionelle Einbettung in die Bundesagentur für Arbeit (BA) über eine umfangreiche Forschungsdatenbasis aus der Arbeitsmarktstatistik und Befragungen, die im Laufe der vergangenen fünf Jahrzehnte immer größer und vielfältiger geworden ist. Immer neue Forschungsfragen und -aufgaben haben den Datenhunger stets aufs Neue geweckt, ebenso wie methodische Fortschritte und die Entwicklung der IT-Technologie und der IT-Infrastruktur. Letztere waren ihrerseits die Voraussetzung dafür, um die wachsenden Datenmengen überhaupt verarbeiten und analysieren zu können.

Doch wie war das überhaupt mit der Datenverarbeitung in den 1970er-Jahren? Sie bedeutete vor allem viel Handarbeit, lange Wartezeiten, eine aus heutiger Sicht schlechte Verfügbarkeit der Daten und umständliche Sortiermöglichkeiten. An allem „schuld“ ist damals noch die Lochkarte, die zu dieser Zeit sowohl von der BA als auch dem IAB zur Datenerfassung verwendet wird und tatsächlich einen entscheidenden Fortschritt darstellt: Im Gegensatz zu per Hand auszufüllenden Listen, bei denen prozentuale oder zeitliche Veränderungen erst durch das mechanische Zusammenrechnen von Werten einzelner Spalten und den Vergleich von verschiedenen Auflistungen möglich sind, bieten Lochkarten die Chance, Dutzende von Werten auf einer einzigen Karte zu archivieren.

Mühsam ist es trotzdem. Wenn die BA beispielsweise alle sechs Monate die Daten für jeden Arbeitslosen erhebt, wird die manuelle Eingabe der Daten zu einer zeitraubenden Aufgabe. „Die Arbeitsvermittler führten Karteien über ihren Arbeitslosenbestand, der nach Berufen sortiert war und in dem bestimmte Merkmale mit Reitern gekennzeichnet waren“, erzählt Helmut Rudolph. „Für die Strukturerhebungen mussten damals die Merkmale von den Karteikarten auf Erfassungsbelege übertragen und anschließend von Datatypistinnen auf Lochkarten erfasst werden.“ Die reale Aufbewahrung von tausenden Lochkarten und deren stapelweise Auswertung nehmen zudem Platz und Zeit in Anspruch, bis sie auf Magnetbändern gesichert werden können. „Das Aggregieren der Daten aus Befragungen und aus Mikrodaten der Arbeitslosen-, Offene-Stellen- oder Beschäftigtenstatistik übernahmen allerdings bereits von Anfang an die Großrechner“, erläutert Helmut Rudolph.

Helmut Rudolph | Bild: Jutta Palm-Nowak

Helmut Rudolph | Bild: Jutta Palm-Nowak

„Als 1981 die Arbeitslosenzahlen aufgrund der Ölkrise und der damit verbundenen Rezession explosionsartig anstiegen, waren wir froh, dass ungefähr zur gleichen Zeit Bildschirme im IAB Einzug hielten und wir Forscher selber Zugang zu den Rechnern erhielten“, erinnert sich Rudolph. Der Fortschritt besteht in der Flexibilität für Filterungen und Merkmalskombinationen: „Wir konnten nun selbst Tabellen für spezielle Fragestellungen generieren und aggregierte Daten in einer Art früher Excel-Tabellen zusammenstellen und mit statistischen Verfahren weiterverarbeiten, zum Beispiel für Regressionsanalysen.“

Durch den direkten Zugriff auf die Großrechner und erste Plattenspeicher verkürzt sich die Zeit zwischen Fragestellung und Ergebnis erheblich. Auch das anfängliche Gerangel um die wenigen Bildschirmarbeitsplätze und die zeitlichen Zugangsbeschränkungen für den Zugriff auf die großen neuen Maschinen ist verschmerzbar. „Man musste sich genau überlegen, welche Abfragen man eingeben wollte, wenn man einige Stunden Zugriff auf einen der Großrechner bekam“, erinnert sich Helmut Rudolph. „Erst Mitte der 1980er-Jahre waren die Festplatten dann groß genug, um die circa 25 Millionen Datensätze eines Stichtags der Beschäftigtenstatistik direkt, ohne Magnetbänder, auswerten zu können.“

Von der Lochkarte zur Floppy-Disc

Dr. Jürgen Passberger

Dr. Jürgen Passberger | Foto: Wolfram Murr, Photofabrik

Dr. Jürgen Passenberger steht 1997, als er seine Arbeit im IAB aufnimmt, vor einer anderen Herausforderung. Ihn beschäftigt vor allem eine Frage: wie den sich immer schneller vollziehenden Fortschritt der Datenspeicherung und -verarbeitung am Institut gestalten? Immer neue, immer leistungsfähigere und trotzdem immer kleiner werdende Speichermedien erobern den Markt. Und das IAB. Die Großrechner verschwinden und werden durch Computer für jeden Mitarbeiter ersetzt. Auf der ersten Generation von Floppy-Disketten kann immerhin die „unglaubliche“ Datenmenge von 180 Kilobyte gesichert werden. Und obwohl die Datenmengen, mit denen das Institut auch zu dieser Zeit schon umgeht, diese Zahl vielfach übersteigt, ist es nun mithilfe trickreicher Dateiaufsplitterungen möglich, Erhebungs- oder Befragungsdaten relativ unkompliziert an verschiedenen Arbeitsplätzen zu bearbeiten.

Doch der Bereich kümmert sich nicht nur um die Speicherung von Daten, sondern auch um die Weiterverarbeitung der Prozessdaten aus der BA. „Eine unserer vordringlichen Aufgaben war es, die Daten von ‚Verschmutzungen’ zu reinigen, auswertbar zu machen und die Zahlen verschiedenster Quellen zusammenzuführen“, sagt Jürgen Passenberger und betont: „Der EDV-Bereich des IAB hat sich damals von einem Hilfsbereich innerhalb des Instituts zu einer wichtigen Abteilung entwickelt. Er schafft auch heute noch die technischen Voraussetzungen dafür, dass das IAB mit großen Datenmengen umgehen kann. Selbst dann, wenn sich der Datenpool immer wieder verändert.“

„Das kann heute jedes Smartphone“

Ali Athmani Portrait | Bild: Jutta Palm-Nowak

Ali Athmani | Bild: Jutta Palm-Nowak

Ende der 1980er- und in den 1990er-Jahren nimmt die Größe der Datenmenge, die man auf schrumpfendem Raum speichern kann, beträchtlich zu. Die Computer begeistern mit nie dagewesenen Rechenleistungen und -geschwindigkeiten. „Trotzdem lachen wir heute über maximale Speicherkapazitäten von mehreren Megabyte. Jedes Smartphone kann heute mehr als die damaligen Rechner“, sagt Ali Athmani, der DIM heute leitet. Die Datenmengen und -größen, um die es heute am IAB geht und die inzwischen von Forscherinnen und Forschern nicht nur am IAB, sondern auch innerhalb und außerhalb Europas genutzt werden, bewegen sich je nach Abfrage und Datenerhebung in der Größe von mehreren Giga- bis hin zu Terabytes. Ganz zu schweigen von den administrativen Daten der Bundesagentur für Arbeit, die in einem Data-Warehouse zur Verfügung stehen und von DIM zu Forschungszwecken aufbereitet und für forschungsspezifische Fragestellungen zur Verfügung gestellt werden.

Ali Athmani beschäftigen heute ganz ähnliche Fragen wie damals Jürgen Passenberger. Nur dass sich die Vorzeichen der Überlegungen massiv verändern. Mit der Zunahme der Digitalisierung kommen immer mehr junge Forscherinnen und Forscher an das IAB, die ihre Datenauszüge selbst aus dem Datenbestand extrahieren möchten. Die Herausforderung bestünde nun auch im Hinblick auf diese „digital natives“ darin, am IAB unter Wahrung des Datenschutzes Self-Service-Plattformen zu implementieren, so Athmani.

Weder kritiklos noch beliebig

Dana Müller | Bild: Jutta Palm-Nowak

Dana Müller | Bild: Jutta Palm-Nowak

Was zunächst unverständlich anmutet, wird angesichts der zu speichernden Datenflut nachvollziehbar. Sie speist sich aus drei emsig sprudelnden Datenquellen: Aus dem Meldeverfahren der Sozialversicherung und den Geschäftsprozessen der BA werden die prozessproduzierten Mikrodaten gewonnen. Weil diese noch nicht ausreichen, um das Arbeitsmarktgeschehen hinreichend zu erklären, befragt das IAB zusätzlich Betriebe, private Haushalte und einzelne Personen. Die Befragungsdaten ergänzen die Prozessdaten systematisch, schließen Lücken und gewähren tiefere Einblicke in komplexe Zusammenhänge der Arbeitswelt. Wichtige Befragungen sind zum Beispiel die Flüchtlingsbefragung, das Panel „Arbeitsmarkt und soziale Sicherung“, das IAB-Betriebspanel und die IAB-Stellenerhebung. Mittlerweile finden sich auch Daten aus passiven Erhebungen, beispielsweise zur Häufigkeit der Nutzung einer bestimmten App auf dem Smartphone, in diesem Datenstrom.

Die Zahl der Daten steigt also exponenziell an. Von sogenannten Big Data im Allgemeinen wollen dennoch weder Ali Athmani noch Dana Müller sprechen. Sie leitet das Forschungsdatenzentrum der BA im IAB (FDZ), das mit der Strukturierung und Bereitstellung einer Vielzahl von Datensätzen für externe Nutzerinnen und Nutzer beschäftigt ist. „Bei uns geht es nicht um das kritiklose oder beliebige Sammeln von Daten um jeden Preis, sondern vielmehr darum, die Zahlen sprechen zu lassen“, betonen Dana Müller und Ali Athmani.

Daten-Empathen

Am IAB werden dafür inzwischen auch, unter Einhaltung der datenschutzrechtlichen Normen, administrative Prozessdaten mit Befragungsdaten verknüpft, um die Bearbeitung von spezifischen Forschungsfragen möglich und vor allem immer besser zu machen. Diese Fragen decken ein breites Spektrum ab: Die Bandbreite reicht von theoretischen oder methodischen Ansätzen, die sich mit der Zusammensetzung von Daten oder dem Vermeiden von strukturellen Fehlern innerhalb der erhobenen Daten beschäftigen, bis hin zu arbeitsmarkt- und sozialpolitischen Fragestellungen, die sich am IAB seit Jahrzehnten an den relevanten Themen der Zeit und natürlich am Wandel des Arbeitsmarkts orientieren. Nicht zu vernachlässigen ist daher die Empathie des IAB für den Umgang mit Daten. „Es geht darum, die Zahlen mit Leben zu füllen und vor dem Hintergrund aktueller Fragestellungen mit einem praktischen Nutzen zu versehen“, verdeutlicht Dana Müller. Von einer reinen Liebe zu Zahlen und Daten mag aber auch sie nicht sprechen.

Prof. Dr. Frauke Kreuter | Bild: Jutta Palm-Nowak

Prof. Dr. Frauke Kreuter | Bild: Jutta Palm-Nowak

Das IAB war und ist weit mehr als ein bloßes Rechenzentrum. Für Frauke Kreuter, Leiterin des Kompetenzzentrums Empirische Methoden (KEM), ist vor allem die Qualität der Zahlen ausschlaggebend. „Und in der Forschung auf diesem Gebiet ist das IAB vorne mit dabei“, betont sie. Das KEM schafft datentechnische und methodische Grundlagen für die empirische Arbeitsmarkt und Berufsforschung und berät die Forschungsbereiche am IAB wie auch andere Organisationseinheiten der BA. Es ermöglicht damit nicht zuletzt eine adäquate Abbildung von Wirtschafts- und Arbeitsmarktprozessen und eine effizientere Auswertung von Massendaten. „Wenn man bedenkt, wie mühsam es noch vor 20 Jahren war, empirische Analysen mit sehr großen Datenmenge durchzuführen, bieten die technische Entwicklungen den Forschern heute ganz andere Chancen und ermöglichen eine bessere und effizientere Forschung“, sagt Frauke Kreuter.

Liebe hin oder her: Zahlen und Daten sind für die Arbeit des IAB seit jeher unerlässlich. Auch eine vernünftige Politikberatung wäre ohne sie schlechterdings nicht denkbar. Zumindest in der Arbeitsmarktforschung gilt: Zahlen sind nicht alles, aber ohne Zahlen ist alles nichts.
Text: Dr. Katja Happe

Beitragsbild: panthermedia.net/samsonovs

 

26. Mai 2017

Ganz nah dran: Langzeitarbeitslosigkeit als Fokusthema am IAB – eine Annäherung

Weiterlesen

11. Mai 2017

50 Jahre IAB: Arbeitswelten im Wandel – Herausforderungen für Politik und Forschung

Weiterlesen

10. Mai 2017

50 Jahre IAB: Festakt im Berliner ewerk

Weiterlesen