Wie berichtet man über das größte staatliche Datenprojekt seit Langem, wenn weder die Ämter noch die Wissenschaft darüber reden wollen? Durch investigativen Datenjournalismus! Ein Making Of einer Artikelserie. VON BJÖRN SCHWENTKER

Zwei Dinge vorweg: Mancher mag finden, dass es hier gar nicht um Wissenschaftsjournalismus geht (was ich am Schluss gerne widerlegen würde). Und dies ist auch kein ordentliches Making of.

Letzteres kann es schon deswegen nicht sein, da das journalistische Endprodukt nicht ein einzelnes Stück ist, sondern eine ganze Serie, die den „Zensus 2011“ beackert und mit datenjournalistischer Recherche versucht, Transparenz in eine staatliches Mammutprojekt zu bringen, über dessen Details die amtliche Statistik, die die Volkszählung durchgeführt hat, lieber schweigen würde.

Die Zensus-Serie ist noch nicht zu Ende. Im jüngsten Stück (Stand Oktober 2014) auf Spiegel Online haben wir veröffentlicht, dass inzwischen 346 Kommunen gegen den Zensus klagen, weil die Zählung ihnen eine unverständlich niedrige Einwohnerzahl beschert. Die Gemeinden fürchten dadurch nicht nur finanzielle Nachteile (kommunaler Finanzausgleich), sie sehen durch das Zensusgesetz sogar die Verfassung verletzt.

Dass die Story sich auf einen ganzen Strang von Artikeln und Analysen verteilt, ist völlig gerechtfertigt. Es spiegelt, wie komplex die Materie ist, wie unterschiedlich die Positionen der Gemeinden und der amtlichen Statistik, und wie schwierig es ist, überhaupt brauchbare Informationen aus den Ämtern herauszubekommen – vor allem Daten. (Die amtliche Statistik umfasst das Statistische Bundesamt und alle 14 Statistischen Landesämter, die den Zensus 2011 gemeinsam durchgeführt haben.)

Darum ist es auch schwierig, die unterschiedlichen Methoden des Datenjournalismus (DDJ) die ich angewendet habe, hier strukturiert vorzustellen. Ich versuche es lieber gar nicht erst. Ich erzähle besser, wie das Projekt seinen Lauf genommen hat, und was datenjournalistisch jeweils die größten Herausforderungen waren (Top 3: Recherche, Recherche und Recherche). Das ganze war und ist für mich selbst ein Lernprozess.

Es begann mit einer bunten Karte

Es begann eigentlich harmlos mit zwei Seiten im Wissenschaftsteil der Frankfurter Allgemeinen Sonntagszeitung (FAS) Anfang Juni 2013, geschmückt mit zwei großen Choroplethenkarten (die mit den farbigen Flächen), die die Einwohnerverluste durch den Zensus auf Kreisebene zeigten.

ausschnitt fzDie Ergebnisse der Volkszählung waren gerade zwei Tage zuvor – an einem Freitag – veröffentlicht worden (seit der Zählung im Mai 2011 waren zwei Jahre vergangen). Viele Medien hatten spontan berichtet, dass Deutschland laut Zensus um 1,5 Millionen Menschen ärmer sei als nach den bisherigen offiziellen Zahlen, die sich aus der „Fortschreibung“ der letzten Volkszählung von 1987 ergaben. Das entsprach einem Minus von 1,9 Prozent.

Die FAS konnte als erstes Medium zeigen, wie die Verluste in der Fläche aussahen. Und vor allem: dass sie auf Kreisebene deutlich höher waren als für den gesamten Bund – so etwa in Mannheim mit -7,5 Prozent.

Das war uns gelungen, weil ich das Statistische Bundesamt (Destatis) lange vor dem Veröffentlichungstermin gebeten hatte, uns die Abweichungen des Zensus zur bisherigen Fortschreibung auf Kreisebene aufzubereiten. Das Ergebnis war ein sehr sauberer Datensatz, abgestimmt auf unsere Bedürfnisse, den die FAS am Veröffentlichungstag bekam – nur leider nicht exklusiv. Destatis stellte ihn für alle ins Internet.

Karten werden nur gut, wenn die Zutaten stimmen

Trotzdem hatte ihn keine Redaktion schneller analysiert als die FAS, geschweige denn daraus eine Farbkarte gemacht. Denn ich hatte mir von Destatis die drei grundlegenden Datensätze besorgt, die jede Karte dieser Art braucht:

  • Eine komplette Liste aller Kreise, zu denen Destatis die Zahlen herausgeben würde. Das klingt simpler als es ist. Denn es kommt genau darauf an, wann der Stichtag ist. Es gab (und gibt) in Deutschland immer wieder Kreisreformen, und zu unterschiedlichen Zeitpunkten gab es unterschiedliche Kreise. Das blöde dabei ist, dass sie manchmal ihren Namen behalten, sonst aber alles ändern (Fläche, Grenzen, Einwohnerzahl). Man braucht neben den Namen darum einen eindeutigen Schlüssel, nämlich den „AGS“, den Amtlichen Kreis- bzw. Gemeindeschlüssel, der mal fünf, mal acht und mal zwölf Ziffern hat.
  • Um die Gebiete (hier die Kreise) auf eine Karte malen zu können, braucht man einen Datensatz, der ihre Umrisse (Grenzlinie) als Vektorgrafik-Information enthält. Das gängige, beim Bundesamt für Kartographie und Geodäsie frei erhältliche Format nennt sich SHAPE-Datei. Der Trick ist wieder, einen vollständigen Datensatz mit exakt den AGS-Schlüsseln zu bekommen, die man zu seinem Stichtag braucht.
  • Und natürlich braucht man die Daten selbst, in unserem Fall die Abweichung der Einwohnerzahlen Zensus-Fortschreibung in Prozent, mit denen man die Gebiete einfärben will. (Diese Daten gab es nicht vorab, aber ich hatte mir einen Dummy-Datensatz generiert, der meinen Erwartungen an die Zensusergebnisse entsprach.)

Daraus dann tatsächlich eine Karte zu machen, ist nur noch Handwerk. Wäre genug Zeit gewesen, hätte ich die oben beschriebenen Kartendaten wahrscheinlich einfach in der Redaktion abgegeben, und die Grafikabteilung hätte den Rest gemacht. Da es extrem schnell gehen musste, habe ich die Karte aber als fast druckfertige Vorlage in diesem Fall selbst angelegt, sodass die Layouter in Frankfurt nur noch minimal Hand anlegen mussten.

Es gibt verschiedene Methoden, eine solche Karte herzustellen. Viele nutzen das freie Kartierungs-Programm QGIS, in dem man mit der Maus arbeiten kann. Da ich aber den Karten-Output bis ins letzte Detail reproduzierbar mit Dummy-Daten vorbereiten musste, wählte ich stattdessen die freie Statistik-Programmiersprache R.

R kann, da es durch unzählige Funktions-Pakete immer wieder erweitert wird, eigentlich alles (aus DDJ-Sicht). Vor allem kann man jede Form von Grafik, also auch Karten, fest einprogrammieren, inklusive vieler Veränderungen (z.B. Farben, Linienart, Schrift) und Ergänzungen (Beschriftungen, Legenden…). Sie werden in einem beliebigen Vektorformat ausgegeben (ich nehme immer PDF), das man dann nur noch für die letzten Details händisch verändern muss (z.B. mit Adobe Illustrator oder der freien Alternative Inkscape).

So habe ich in den Wochen vor der Veröffentlichung mit Dummy-Daten mein persönliches Kartenprogramm schreiben und das Dummy-Ergebnis mit der FAZ-Grafikabteilung immer wieder abgestimmt, bis alles passte. Als die echten Daten dann rauskamen, musste das Programm nur noch durchrattern und alles war (fast) fertig.

Programmieren als journalistische Methode

Die Analyse von Daten mit R, also per Programmierung, ist mir geblieben. Nicht nur für Karten. Es gibt keine Methode (insbesondere nicht die Arbeit mit Excel), die einerseits so mächtig, andererseits aber so präzise, so gut kontrollierbar, nachvollziehbar und darum so wenig fehleranfällig ist, wie das Programmieren. Denn man (jeder!) kann ja jederzeit jeden Schritt nachvollziehen. Inzwischen würde ich sogar so weit gehen zu behaupten, dass journalistische Kriterien Programmieren als Methode geradezu fordern (Diese verwegene und unbeliebte These habe ich auf datenjournalist.de einmal ausführlicher begründet).

Wie gut die Idee war, sich auf die R-Programmierung einzulassen, zeigte sich im Zensus-Projekt, als die Datenmengen plötzlich viel größer wurden. Ging es für FAS nur um 412 Kreise, waren es im nächsten Schritt schon über 11.000 Datensätze – ich wollte nämlich wissen, wie die Verluste (und evtl. Gewinne) durch den Zensus auf Gemeindeebene aussahen (und davon gab es zum Zensusstichtag 11.339). Ich hatte Spiegel Online dafür gewonnen, daraus eine Datengeschichte mit interaktiver Gemeindekarte zu machen.

Zensuskarte_Gemeinden_SPON

So simpel die Karte aussieht, so schwer war der Weg dahin. Ich musste lernen, dass kein Tool, keine Programmierkünste und kein datenjournalistischer Handwerks-Trick so wichtig sind für eine DDJ-Geschichte wie die vermeintlich langweilige Basisrecherche der Daten selbst. Denn an die muss man erstmal kommen – und ohne sie geht die Geschichte gar nicht erst los.

Das Statistische Bundesamt stellte zwar für jede der 11.339 Gemeinden die Einwohnerzahl laut Zensus zur Verfügung, die wichtigen Vergleichswerte der alten Fortschreibung konnte man uns aber nicht geben. Dafür seien die Statistischen Landesämter zuständig. Für den Journalisten heißt das: Bei 14 Ämtern gleichzeitig anfragen. Zum Glück (so erfuhr ich zum ersten Mal) muss man das nicht selbst machen. Die amtliche Statistik hat dafür die „Koordinierte Anfrage“ erfunden: Man meldet sich beim Auskunftsdienst des Statistischen Landesamtes im eigenen Bundesland (für mich Statistik-Nord in Hamburg, die Pressesprecher sagen einem, wer zuständig ist), schickt seine Fragen dorthin, und die Mitarbeiter dort klappern dann alle Ämter ab, bis sie (hoffentlich) alles beisammen haben.

Die Koordinierte Anfrage ist ein Segen, aber schwierig bleibt es trotzdem. Wir bekamen von jedem Land eine eigene Datei, mal im Excel-Format, mal als CSV-Text-Datei. Die Gemeindeschlüssel hatten unterschiedliche Längen und sogar Kodierungen, es gab Fehler, auf die wir die Ämter erst hinweisen mussten, und ein Land lieferte gar nichts. „Die Daten kriegen sie nicht“ hieß es aus Sachsen-Anhalt. Zum Glück gehört es zu den Ländern, die ein Informationsfreiheitsgesetz haben. Nach einem entsprechenden formalen Antrag überlegte man sich die Sache zum Glück sehr schnell anders und die Daten waren am nächsten Tag da.

Datenjournalismus ist vor allem Datenrecherche

Seitdem ist mein wichtigstes DDJ-„Tool“ eine wachsende Kenntnis von Auskunftsrechten (vor allem der Informationsfreiheitsgesetze – IFG) und wie man sie nutzt. Außerdem Geduld und Beharrlichkeit und der Aufbau eines Netzwerks von Informanten. Inzwischen hat mich das, was ich am Anfang für eine einfache Datenrecherche gehalten hatte, ziemlich weit in den Bereich der investigativen Recherche getrieben. Dass das nötig ist, würde ich übrigens nicht den amtlichen Statistikern selbst anlasten. Vielmehr einer gewachsenen Kultur der Verschwiegenheit, die es zu ändern gilt. (Ich habe einmal in einem Blog-Beitrag versucht, sie zu ergründen.)

Hat man seine Daten dann endlich, steht man vor technischen Herausforderungen. Und zwar lange vor jeder Visualisierung. Erstmal müssen die Datenlieferungen überhaupt sauber verarbeitbar gemacht werden.

Im Fall der Gemeindedaten ging es um das profane Problem, aus den Einzeldateien der Länder eine einzige große Liste mit allen 11.339 Gemeinden zu machen, die alle den richtigen AGS-Schlüssel hatten. Welche das sein müssen, war zum Glück bekannt, da Destatis eine Liste zusammen mit den nötigen SHAPE-Dateien für Kartenmaterial veröffentlicht hatte.

Leider ging Excel beim Verknüpfen der Dateien in die Knie. Eigentlich sollte das Programm viel mehr als 11.000 Datensätze gleichzeitig verwalten können. Das stimmt allerdings nicht mehr, wenn sie auf verschiedene Datenblätter verteilt sind, die man durch eine ID (nämlich den AGS) verknüpfen will (das macht man mit dem SVERWEIS, einem der wichtigsten Excel-Befehle für den DDJ). Als Excel irgendwann nur noch hing und abstürzte, bin ich auch hier auf die Programmierung in R umgestiegen. Dort geht alles in Sekundenbruchteilen und sehr sauber (vorausgesetzt, man hat den richtigen Programmcode geschrieben).

Der Aufwand lohnte sich. Auf Gemeindeebene wurde sichtbar, dass der Zensus um bis zu 30 Prozent und mehr von den bisherigen Einwohnerzahlen abwich. Meistens nach unten, aber manchmal auch nach oben. Je genauer man (räumlich) hinschaute, desto größer wurden die Fehler.

Zoom_Ploen_Zensus-unzensiert

Die Diskussion ist nun: Was ist eigentlich falsch? Die alte Fortschreibung, weil sie auf einer Volkszählung beruhte, die 25 Jahre her war, und sich mittlerweile viele Ungenauigkeiten akkumuliert hatten? Oder der Zensus, der 2011 erstmals keine Vollzählung mehr war, sondern ein Mix aus zwei Methoden: Für große Städte mit mehr als 10.000 Einwohnern wurde nur eine Stichprobe von etwa 10 Prozent gezählt und das Ergebnis hochgerechnet. Für kleinere Gemeinden wurden – grob gesprochen – Unstimmigkeiten bei den Einwohnerzahlen der kommunalen Melderegister durch einzelne Hausbesuche geklärt (z.B. Karteileichen).

Die Gemeinden stellen vor allem die Stichprobe in den größeren Städten an den Pranger, und behaupten, sie habe die Einwohnerzahlen systematisch untererfasst. Die amtliche Statistik versteht die ganze Aufregung nicht: Alles in Ordnung, man habe doch nur 1:1 das Zensusgesetz umgesetzt.

Die Behauptungen standen gegeneinander, neue Argumente kamen kaum dazu, da die amtliche Statistik die dafür nötigen Daten zurück hielt. Ich fragte mich, ob Journalismus mehr beitragen könnte, als nur in einem „He said, she said“ die Positionen zu beschreiben. Mir wurde klar, dass mehr nur dann ging, wenn wir irgendwie doch an die nötigen Daten kamen und damit dann eine eigene statistische Analyse machten, die methodisch auf hohem Niveau ist. Das konnte aber nur gelingen, wenn wir die Wissenschaft ins Boot holten.

Am Ende ist uns das tatsächlich gelungen. Zumindest für die Gemeinden in den Bundesländern Rheinland-Pfalz und Niedersachsen konnten wir zeigen, dass sie durch den Zensus systematisch mehr Einwohner verloren, wenn deren Zahl durch eine Stichprobe erhoben worden war:

Niedersachsen

Unsere Anfragen nach Daten blockierten die statistischen Ämter diesmal komplett. Wir mussten die Zensusergebnisse nämlich nicht der alten Einwohnerzahl (also der amtlichen Fortschreibung) gegenüber stellen, sondern den Zahlen aus den kommunalen Melderegistern, die als Grundlage in die Zensusberechnungen eingegangen waren. Die Statistischen Landesämter mussten diese Zahlen haben, sonst hätten sie mit dem Zensus gar nicht erst beginnen können. Aber sie verweigerten sie uns – mit einer (letztlich gegenüber der Demokratie) an Unverschämtheit grenzenden Dreistigkeit. Irgendwann sickerten die Zahlen für Niedersachsen doch zu uns durch und für Rheinland-Pfalz bekamen wir sie aus dem dort zentral geführten Melderegister aller Gemeinden. So hatten wir knapp ein Drittel aller deutschen Gemeinden zusammen. Genug, um die Systematik der Zensusverzerrung zu zeigen.

Dazu reichte es aber nicht, die Daten einfach nur deskriptiv zu plotten (wie im Bild oben). Wir wollten prüfen, ob es einen belastbaren statistischen Zusammenhang zwischen dem Methodensprung im Zensus und den Abweichungen der Einwohnerzahlen gibt. Dazu programmierten wir ein lineares Regressionsmodell in R, das uns nicht nur die Größe des Methodeneffektes ausspuckte (große Gemeinden verloren durch den Zensus um 1,5 Prozentpunkte mehr Einwohner als kleine), sondern auch noch statistische Gütekriterien wie Signifikanz, Konfidenzintervalle oder das Bestimmtheitsmaß der Regression, die uns deren Genauigkeit und Erklärungskraft lieferten.

Gleichzeitig führten wir Kontrollvariablen ein, testeten auch alternative Regressionsmodelle und variierten die Größenklassen der Gemeinden, die wir in unsere Modelle steckten, um möglichst sicher gehen zu können, dass wir den Methodensprung als Auslöser isolieren konnten und nicht irrtümlich irgendeinen anderen Effekt sahen. Beraten lassen haben wir uns dabei von einem Statistiker der LMU in München, Helmut Küchenhoff, der uns auch für die Veröffentlichung auf Spiegel Online bestätigte, dass wir einen Effekt zwischen Gemeinden mit und ohne Stichprobe gefunden hatten.

Was so statistisch und dröge daherkommt, könnte einige Sprengkraft haben. Denn die Ungleichbehandlung der Gemeinden durch das Zensusgesetz (das den Methodensprung vorschreibt) könnte verfassungswidrig sein. Es ist darum nicht unwahrscheinlich, dass das Gesetz vor dem Bundesverfassungsgericht landet. Wird es dort kassiert, dann gleichzeitig auch die neue Zählmethode. Und es ist völlig unklar wie dann mit den Finanzausgleichen auf Länder- und Kommunalebene zu verfahren ist oder mit zig anderen gesetzlichen Regelungen, denen die amtlichen Bevölkerungszahlen der Gemeinden zugrunde liegen.

Journalistische Aufgabe muss hier meiner Meinung nach sein, für Transparenz zu sorgen, wo der Staat selbst alles tut, um öffentliche (und gerichtliche und politische) Diskussion zu verhindern. Deshalb haben wir auf Spiegel online alles veröffentlicht, was wir wissen. In der Redaktion haben es die Kolleginnen Christina Elmer und Nicola Kuhrt ermöglicht, die vollen Vorteile des Internets auszuspielen, nämlich die Informationen je nach Detailbedarf auf verschiedenen Ebenen anzubieten:

  1. ein politisches Stück zur Relevanz und Einordnung unserer Ergebnisse.
  2. ein langes, teils schon technisches Hintergrundstück, das unsere Methode beschreibt und die Ergebnisse in mehreren Grafiken und Tabellen auffächert.
  3. eine Sammlung von Dateien auf GitHub, die unsere Basisdaten und auch den kompletten, dokumentierten R-Quellcode unseres Auswertungsprogrammes frei für alle als Download verfügbar macht.

Ist das noch (oder schon) Wissenschaftsjournalismus?

Auch nach diesem vorläufigen Höhepunkt dauert das Zensusprojekt an. Spannend finde ich die Frage: Was für eine Art von Journalismus ist das denn nun eigentlich? Dass es Datenjournalismus ist, ist klar. Aber ist es auch Wissenschaftsjournalismus? Ich würde sagen, ja. Vielleicht sogar auf eine datenjournalistische Art, die einiges Potenzial für den Wissenschaftsjournalismus hat.

Ich glaube das, obwohl die Wissenschaft über weite Teile des Zensusprojektes durch Abwesenheit glänzt. Das war so allerdings nicht gedacht. Ich kam auf das Thema überhaupt erst, weil es für mein inhaltliches Themenfeld, die Demografie, so unmittelbar relevant ist. Ohne richtige Bevölkerungszahlen, keine richtige Bevölkerungsforschung. Das gilt auch für andere Disziplinen. Eigentlich für alle, die die Bevölkerungszahl irgendwo im Nenner ihrer wissenschaftlichen Größen haben, damit normieren, oder ihre Forschungsdatensätze mit amtlichen Größenangaben hochrechnen.

Ich hatte darum geglaubt, die Wissenschaft würde sich selbst um die Qualität des Zensus kümmern, sich Daten besorgen, Analysen fahren, auf Fehler hinweisen, sie quantifizieren, und vor allem: Öffentlich dazu Stellung nehmen. Mit alldem lag ich falsch. An die nötigen Daten kam selbst die Wissenschaft nicht dran. Außerdem war ihr Drang, die amtliche Statistik zu kontrollieren, gemessen an ihren sonstigen methodischen Selbstverpflichtungen erstaunlich gering. Sich kritisch zum Zensus äußern, wollte kaum einer, zumal in der Demografie.

Was tun, wenn die Wissenschaft nichts sagen kann oder will?

Nach etlichen enttäuschenden Telefonterminen und einigen geplatzten habe ich begriffen, warum keiner etwas sagen will: Die Forscher hängen am Datentropf der amtlichen Statistik wie sonst nur an den finanziellen Fördermitteln von Bund und Ländern. Sie schadeten sich selbst, rebellierten sie gegen die staatlichen Hüter der Daten. Wissen doch viele, dass die Ämter durchaus ohne allzu stichhaltige Gründe den Datenhahn zudrehen können (und das auch tun). Oder gereizt reagieren, wenn die Forschung die amtlichen Statistiken (und damit gefühlt die Statistiker) nicht gut aussehen lässt. Ein bedenklicher und relevanter Zustand, der an sich aber nicht medienfähig ist.

Was also tun, wenn die Wissenschaft nicht zur Verfügung steht? Muss Journalismus sich dann nicht selbst helfen? Die Antwort könnte in einem Datenjournalismus liegen, der versucht, so nah wie möglich an wissenschaftliche Standards heranzukommen. Das wird nicht wirklich ohne konkrete Hilfe aus der Wissenschaft gehen – so wie bei uns durch den Statistiker Küchenhoff. Ich sehe das als Neuland, in dem viele Fragen offen sind. Wie die nach dem Anspruch (der Vermessenheit?) oder dem erreichbaren Niveau eines solchen Journalismus. Und am wichtigsten: Wie kann ein Journalismus, der mit der Wissenschaft kooperiert, noch kritische Distanz zu ihr wahren?

Im Fall des Zensus war ich überrascht, wie unkompoliziert die Zusammenarbeit mit der statistischen Forschung war. Und dann noch einmal, als nicht mehr ich den Kontakt zur Wissenschaft suchte, sondern Wissenschaftler den Kontakt zu mir: Sie fragten nach Daten, wollten unsere Berechnungsmethode diskutieren, baten um Hinweise für ihre eigenen Forschungsprojekte oder wollten sich einfach nur erklären lassen, wie der Zensus funktioniert hat.

Für mich war das eine plötzliche Nähe zur Wissenschaft, die ich so aus meinem bisherigen journalistischen Abstand nicht kannte. Aber vielleicht muss und darf man (in begründeten Fällen) umdenken? Vielleicht kann die Forschung ja zumindest teilweise eine neue Rolle für den Journalismus spielen, wie ich sie in einem Blog-Post kürzlich skizziert habe: Die eines kooperativen Lieferanten wissenschaftlicher Rohdaten und die eines Lehrers und Kritikers bei der journalistischen Anwendung wissenschaftlicher Methoden. Bei aller gebotenen journalistischen Distanz, die beiden Seiten klar sein muss.


Schwentker_Björn CroppedBjörn Schwentker ist freier Wissenschaftsjournalist und lebt in Hamburg.