Eine gerade erschienene, groß angelegte Studie birgt Zündstoff. Der Befund: Mehr als die Hälfte der Artikel über neue biomedizinische Studien wäre besser nie geschrieben worden. Denn deren Ergebnisse erwiesen sich als falsch. VON MARKUS LEHMKUHL

Photo: CC BY-ND 2.0:
The Lex Talionis https://www.flickr.com

Manchen gelingt es, Einsichten in das enge Korsett eines Tweets zu pressen. Zum Beispiel dem Experimentalpsychologen Steven Pinker. Der twitterte am 1. August 2014 kurz nach sieben Uhr einen Rat in die Welt: „Stop reporting single studies, no matter how sexy (these are probably false). Report lit reviews, meta-analyses.“ Der Rat gründete wahrscheinlich auf dem Zusammenzählen von 1 plus 1. Die Replikationsraten von Studien aus der Sozialpsychologie sind niedrig. Journalisten berichten gerne über solche Studien. Ergo: Die Artikel über viele dieser neuen Studien sind das Papier nicht wert, auf das sie gedruckt sind.

Es wäre sicherlich übertrieben, zu behaupten, dass dieser Ratschlag große Wellen schlug. Es war wohl eher ein leises, leicht säuerliches Grummeln, das man vernehmen konnte, etwa hier und hier.

Eine neue Studie in PlosOne hat das Potential, das Grummeln in Nachdenklichkeit zu verwandeln. Denn es ist die erste Studie, die mit großem Aufwand zu erheben versucht hat, wie es um die Verlässlichkeit der Studienergebnisse bestellt ist, über die alltäglich berichtet wird. Antwort: Eher schlecht! In Zahlen: 51,3 Prozent eines Samples von 156 biomedizinischen Studien, über die Journalisten in englischsprachigen Zeitungen zwischen 1988 und 2013 berichtet hatten, hielten der Überprüfung in Folgestudien nicht stand. Die gefundenen Effekte konnten entweder nicht reproduziert werden. Oder sie waren nur halb so groß wie behauptet.

Die Arbeitsgruppe um den französischen Neurowissenschaftler Francois Gonon hat darüber hinaus erhoben, welche Resonanz die Studien in der englischsprachigen Zeitungswelt fanden, die zuvor berichtete Studienergebnisse nicht bestätigen konnten. Antwort: Fast keine! Die Gruppe konnte nur einen Fall finden, bei dem einzelne Zeitungen nicht nur über die Ergebnisse einer Initialstudie berichteten, sondern auch über die Ergebnisse einer Folgeuntersuchung, die den zuvor berichteten Effekt nicht nur nicht bestätigen konnte, sondern einen gegenteiligen fand. Das deutet auf eine verbreitete Ex und Hopp-Haltung innerhalb des Journalismus hin. Es wird einmal über einen Effekt xy berichtet, der dann dem Vergessen überantwortet wird.

Klare Präferenzen in der journalistischen Auswahl: neu, relevant für den Lifestyle und aus High-Impact-Journal

Das Design der Studie ermöglicht darüber hinaus erstmals quantifizierte Aussagen über die Selektivität des Wissenschaftsjournalismus, der sich mit neuen biomedizinischen Studien befasst. Die Gruppe aus Bordeaux hat 4723 Einzelstudien analysiert, die sich mit zwölf unterschiedlichen Krankheiten befassten, darunter sehr „populäre“ wie Alzheimer oder Brustkrebs, aber auch solche, die aus journalistischer Sicht weniger sexy sind, wie „Grüner Star“ oder rheumatoide Arthritis.

Diese 4723 Studien wurden unter anderem danach unterschieden, ob sie einen Effekt erstmals feststellten (401) oder einen schon bekannten Effekt nochmals untersuchten (4318). Und sie wurden danach unterschieden, ob die Ergebnisse relevant waren für den „lifestyle“ eines gewöhnlichen Menschen (639) oder nicht (4084). Relevant für den lifestyle waren solche Ergebnisse, aus denen sich eine Verhaltensempfehlung ableiten ließ, etwa: Beweg dich viel, dann beugst du Alzheimer vor.

Die Autoren haben erhoben, über wie viele dieser Studien Wissenschaftsjournalisten in englischsprachigen Zeitungen berichtet haben, das waren 156, das entspricht 3,3 Prozent. Allerdings lässt sich dieser Anteil nicht interpretieren. Denn die knapp 5000 Studien sind nicht repräsentativ für alle Studien aus den betrachteten Feldern. Eingeschlossen ins Sample wurden nur solche Studien, die auch in Metastudien analysiert wurden.  Andernfalls wäre es mit vertretbarem Aufwand nicht möglich gewesen, zu erheben, wie viele der 156 Studienergebnisse sich im Nachhinein als falsch oder übertrieben herausstellten.

Die Daten zeigen klare Präferenzen in der journalistischen Auswahl. Offenbar wird ein schon bekanntes Muster. Die Auswahlchancen eines Ergebnisse hängen davon ab, ob es in einem High-Impact-Journal erscheint, weniger bekannte wissenschaftliche Zeitschriften fliegen unterhalb des journalistischen Radars. Darüber hinaus haben lifestyle-Studien deutlich bessere Auswahlchancen. Und ganz neue Effekte haben es den Journalisten angetan. Die werden häufiger ausgewählt als Studien, die einen schon bekannten Effekt erneut untersuchen.  Und genau darin besteht aus Sicht der Autoren das Problem. Denn ganz neue Effekte stellen sich eben häufiger als nicht belastbar heraus.

Journalismus kann kein Korrektiv sein

Wie bei allen Einzelstudien bleiben auch bei dieser einige Fragen offen, die Interpretationen erschweren. Die Gruppe aus Bordeaux hat zum Beispiel nicht erhoben, wie hoch die Replikationsrate bei allen Studien war. So bleibt unklar, ob der Journalismus überdurchschnittlich häufig „die Schlechten“ auswählt. Außerdem blieb unberücksichtigt, wie die Artikel in den Zeitungen aufgemacht waren. Es macht ja für die Interpretation einen Unterschied, ob die Studien in Einspaltern von 20 Zeilen abgefeiert werden oder auf Titelseiten erscheinen. Sie haben auch nicht zwischen großen nationalen Zeitungen und kleineren Blättern unterschieden, sodass unklar bleibt, ob bestimmte Segmente des Journalismus besser auswählen als andere. Sie haben aber immerhin einen Indikator verwendet, der Rückschlüsse darauf erlaubt, ob es ein Studienergebnis zu einer gewissen Popularität gebracht hat: Die Kongruenz des Auswahlhandelns. So haben sie überprüft, ob Studienergebnisse, die von mindestens drei Zeitungen gleichzeitig ausgewählt wurden, sich von den anderen unterscheiden. Ergebnis: Nicht wesentlich! Auch die von mehreren Zeitungen gleichzeitig ausgewählten Ergebnisse erwiesen sich in 47 Prozent der Fälle als falsch oder stark übertrieben.

Trotz dieser Einschränkungen lassen sich mindestens zwei Dinge festhalten: Diese Studie legt nahe, dass Nachrichten über Einzelstudien aus der Biomedizin nicht nur ein Relevanzproblem haben, weil sie in der Regel hyperspeziell und mit vielen Einschränkungen behaftet sind. Diese Nachrichten haben auch ein Akkuratheitsproblem. Und: Ein wissenschaftliches Reproduktionsproblem mag den wissenschaftlichen Erkenntnisfortschritt nicht aufhalten, den Journalismus aber überfordert es, mindestens in der Breite. Er kommt nicht als Korrektiv für den Unsinn infrage, den Wissenschaftler in Einzelstudien verbreiten. Eher im Gegenteil: Er verursacht mutmaßlich informationelle Kollateralschäden, weil sich die Hälfte seiner biomedizinischen Neuigkeiten als unwahr erweisen, was aber nur jemand erfährt, der Metastudien liest. Denn über die Richtigstellungen der Irrtümer wird allenfalls ausnahmsweise berichtet.  Es gibt also durchaus Gründe, den schlanken Tipp von Steven Pinker zu überdenken. Allerdings: Befolgte man den Rat konsequent, dürfte es diesen Artikel nicht geben.

Studie: Dumas-Mallet, Estelle; Smith, Andy; Boraud, Thomas; Gonon, Francois (2017): Poor replication validity of biomedical association studies reported by newspapers. In: Plos One 12 (2), e0172650. DOI: 0.1371/journal.pone.0172650.


Markus Lehmkuhl ist wissenschaftlicher Mitarbeiter am Institut für Publizistik der Freien Universität Berlin und derzeit Vertretungsprofessor für Wissenschaftskommunikation in digitalen Medien am KIT in Karlsruhe. Er leitet die Redaktion von meta seit 2007.