Data Driven Journalism: Versuch einer Definition

Dieser Artikel ist zuerst erschienen im Blog des Open Data Network. Der Autor ist Lorenz Matzat.

Das Internet ist nicht arm an Buzzwords – Schlagworten, die für einige Zeit Konjunktur haben und sich eben etablieren oder wieder verschwinden. Data Driven Journalism (DDJ) geistert vermehrt seit vergangenem Jahr durch das Web. Im März 2009 startet die englische Tageszeitung The Guardian auf ihrer Website das Datablog; es ist eingebettet in einen Datastore und dürfte bislang als Referenz für DDJ gelten. Einer breiteren Öffentlichkeit wurde das Thema „Datenjournalismus“ in Deutschland durch die Zeitschrift „M – Menschen Machen Medien“ im März 2010 näher gebracht. Im Periodikum des Fachbereichs Medien der Gewerkschaft ver.di mit einer Auflage von 50.000 ging es um die „Spannende Recherche im Netz“.

Begonnen hat es allerdings schon 2006: Als eine Art Manifest in Sachen DDJ gilt der Text „A fundamental way newspaper sites need to change“ von Adrian Holovaty. Er meinte, dass viele Informationen bereits in einer strukturierten Form (=Datensätze) vorliegen oder sinnvollerweise in einer solchen abgelegt werden könnten. Als Beispiel nannte er einen Brand in einem Wohnhaus – es gäbe Fakten, die immer gleich sind – letztlich die berühmten W-Fragen: Wo, wann, wie viele Betroffene, Verletzte, Tote, wie viele Feuerwehrmänner waren im Einsatz etc.

Zeitungsredaktionen usw. könnten also Datenbanken über Ereignisse mit einer konsistenten Datenstruktur aufbauen, so Holovaty, die sowohl für die eigenen Recherche als auch online als Angebot für die eigenen Nutzer/innen bereitgehalten werden können – man denke beispielsweise an eine Karte, auf der sich die Feuer anzeigen lassen und eben nach diversen Kriterien Filtern lassen.

Was ist also das Neue am Daten-getriebenen Journalismus?

Die Recherche in Datensätzen, etwa Statistiken, ist wahrlich nichts Neues. Das gilt auch für die rechnergestützte Recherche, das Computer-assisted-reporting (CAR), welches seit Jahrzehnten praktiziert wird.

Dagegen ist DDJ eine Kombination aus einem Recherche-Ansatz und einer Veröffentlichungsform: Ein oder mehrere maschinenlesbare Datensätze werden per Software miteinander verschränkt und analysiert – damit wird ein schlüssiger und vorher nicht ersichtlicher informativer Mehrwert gewonnen. Diese Information wird in statischen oder interaktiven Visualisierungen angeboten und mit Erläuterungen zum Kontext, Angaben zur Datenquelle (bestenfalls wird der Datensatz mit veröffentlicht) versehen. Letztere wird ggf. kommentiert (in Schrift, Ton oder Bewegtbild). Liegen die Daten nicht maschinenauswertbar vor (z.B. hundertausende Emails) können die User aufgefordert werden, die Recherche weiter mit voranzutreiben („Crowdsourcing“, siehe bspw. „Investigate your MP’s expenses“).

Der Wandel der Journalistenrolle

DDJ setzt voraus, dass der Journalist/die Journalistin bereit ist, seine oder ihre Recherchequelle mit dem Konsumenten des Beitrags zu teilen. Die Quelle wird überprüfbar, aber auch weiterverwendbar. Diese Form der Ermächtigung des Nutzers findet sich im Prinzip von Creative Commons, aber auch dem Open Access-Ansatz in der Wissenschaft wieder; dort wird es üblich, auch die Datenbasis der Forschung parallel zum Forschungsergebniss zu veröffentlichen (was z.B. die Qualität von Peer-Reviewing steigern kann).

Weiter müssen Datenjournalisten nicht nur offen für technologische Aspekte des Web sein, sondern sie auch beherrschen. Datenrecherche meint vielleicht auch, Daten zu erlangen, die erstmal gar nicht für die Öffentlichkeit gedacht sind. „Data-Mining“ und das „scrapen“, das Ausschaben von Websites, um an Rohdaten zu gelangen, sind hier die entsprechenden Stichworte. Die Journalisten selbst sollten also Programmierkenntnisse erlangen („computer literacy“) und/oder Redaktionen sollten Programmierer anheuern.

Grenzfälle

Debattieren ließe sich, inwieweit Datenvisualisierung Teil von DDJ ist. Das Metier der Produktion von Infografiken ist erstmal kein neues Feld; ob rein statische Visualisierungen von Daten (Balkendiagramme und Co.) direkt zu DDJ zählen, dürfte davon abhängen, ob andere Kriterien von DDJ erfüllt sind (etwa die Veröffentlichungen von Datenquellen). Dagegen sind interaktive Grafiken, Mashup-Karten uä. sicherlich schon eher DDJ.

Aber ist es noch Journalismus, wenn es keinen Journalisten mehr gibt, sondern eine rein automatisierte Websoftware Datenbanken abfragt, bearbeitet und dann wiedergibt? Manche zählen Projekte von mySociety.org (etwa TheyWorkforYou.com) oder Frankfurt gestalten zum DDJ. Wo verläuft die Grenze zwischen Informations-Dienstleistung und Berichterstattung? Vielleicht könnte man hier von „Maschinen-Journalismus“ sprechen.

Mehrwert

Datenjournalismus fusst also auf den Prinzipien einer freien und offenen Netzkultur: Freier Zugang zu Wissen, das Teilen von Informationen und der Zusammenarbeit. Die automatisierte Erschließung, Auswertung und Aufbereitung von den teilweise monumentalen Datensätzen aus Politik, Verwaltung, Wirtschaft und Wissenschaft (Stichwort OpenData) kann qualitativen Mehrwert bieten: Das Verständnis von und die Berichterstattung über Gesellschaft und Natur erweitern. Oder Zusammenhänge aufzeigen, die vorher nicht ersichtlich waren. Welche Rolle Daten in Sachen investigativem Journalismus spielt, muss angesichts des erfolgreich Projekts Wikileaks hier nicht weiter ausgeführt werden.

Weiter kann DDJ sowohl dem Rechercheur als auch dem User einfach zu bedienende Werkzeuge an die Hand geben, mit denen sich besagte Datenquellen durchdringen lassen. Und DDJ kann webgestützt eine kollektive, eine kolloborative Recherche organisieren, falls Software (noch) nicht Datenbestände sinnvoll auswerten kann..

Mit DDJ wird sich jedenfalls die Rolle von (manchen) Journalisten weiter wandeln. D.h, aber auch, dass das anhaltende Hadern der etablierten Medien mit dem Netz weitergehen wird. Denn das hat einiges mit dem Selbstverständnis ihrer Macher zu tun. Die digitale Demokratisierung der Produktionsmittel von Medien stellt die Positionen des klassischen Journalisten in Frage – das tritt im Streit Blogger versus „echter“ Journalist anhaltend zutage.

Dabei geht es schlicht um ein zentrales Element der jetztigen Gesellschaft: Informationshierarchie – wer kann Informationen zurückhalten, wer hat die Deutungshoheit über das, was geschieht. Und wer kann seine Deutung mit größtmöglichster und weitreichenster Autorität verbreiten.

Siehe auch Eintrag zu Data Driven Journalism im ODN-Wiki.

Insgesamt gab es einen Schwerpunkt zu Open Data und OPen Government auf der diesjährigen re:publica. Eine Übersicht zu den verschiedenen Beiträgen haben wir im Artikel „Best of re:publica im Bereich Open Data / Open Government und Partizipation“. Das OpenData-Network ist mit zwei Sessions zum Thema auf der re:publica 2010 vertreten. Jeweils am Freitag, den 16. April:

15 Uhr: Coding for data-journalism – Einsteigerfreundliche Software-Tools für die Beschaffung und Präsentation relevanter Daten

17: Uhr: Datenjournalismus in der Praxis – Einführung in Data Driven Journalism und der Einsatz von Datensätzen in Blogs und anderen Online-Medien.

Dieser Artikel ist zuerst erschienen auf im Blog des Open Data Network. Der Autor ist Lorenz Matzat.

8 Ergänzungen

  1. Trotzdem – Halbwahrheiten sind keine Wahrheiten!!

    Frau Malmström hat keine wahrheitsgemäßen Zahlen angegeben wenn diese veraltet waren und stillschweigend von ihr als aktuell verkauft wurden, und wer wie sie mit so einem weitreichenden und tiefgreifenden Projekt auf EU-Ebene betraut ist wie diese EU-Richtlinie, von dem muß man ganz einfach erwarten können, auf dem neuesten Stand zu sein.

    Aber damit hätte sie den geplanten Sperren selbst einen großen Teil ihrer argumentativen Daseinsberechtigung genommen, wenn sie die aktuellen Zahlen verwendet hätte im Interview.

    Man kann nur weiterhin sagen, macht nicht den Fehler, die Frau einfach nur für naiv zu halten. Was sie macht ist kein fehlgeleitetes Gutmenschentum, da steckt überall Methode und System dahinter!!

  2. Mehr Daten und Statistik: immer gerne!
    Frei zugängliche und überprüfbare Daten: aber bitte doch!

    Datenjournalisten … öhm .. hä?
    Wir suchen also Personen, die gewissenhaft, fähig und sorgfältig Daten aufbereiten können und wählen dazu Journalisten?
    Warum nicht einfach Wissenschaftler, also die ausgebildeten, spezialisierten Datenanalytiker?

    Mir wird immer ganz schlecht, wenn ich in der Zeitung lese: Zustimmung um 0,5% gestiegen. Ja super! Wie groß war die Stichprobe, was war die Methode und wie verlässlich und valide war sie?
    Ist die Stichprobe klein und die Messung ungenau (häufig nicht vermeidbar) dann sind ein paar Prozent hin oder her nur statistisches Rauschen. Jetzt erklärt mal einem Durchschnittsjournalisten Signifikanz.

    Im Endeffekt müssen wir für Data Driven Journalism entweder Wissenschaftler allgemeinverständliches Aufbereiten beibringen oder Journalisten Wissenschaft.

    Ich denke ein paar Schreib- und Gestaltungsseminare sind eher drin, als Journalisten für ein paar Jahre(wieder) an die Uni zu schicken. Und häufig ist noch nicht mal dass nötig, denn viele Akademiker schreiben enorm gut. (Clay Shirky oder Paul Krugman als Beispiele)

    Das ist ja das schöne am Internet. Wir brauchen keine Gatekeepermedien als Nadelöhr mehr. Wir können die Leute, die sich wirklich auskennen, direkt zu Wort kommen lassen.

  3. Ein „empirical turn“ in der Medienlandschaft? Glaub ich nicht so recht dran.

    1. Hohe Zeitintensivität.
    2. Hohe methodische Zugangsschranken eines „forschenden Schreibens“

    Kein Laie weiß, welche Voraussetzungen sein „maschinengestütztes“ Rumrödeln mit Variablen, Skalierungen und Ausprägungen erfüllen sollte, um belastbar zu sein.

  4. Was mich besonders interessiert, ist, wie solch buzzwords einen einfluss auf das ranking in den SERPS haben. Geht man nun von der Live-Suche von Google aus, dürfte das zu wirklich verheerenden Verzerrungen in den Ergebnislisten führen. Wird sicher interessant.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.