Jüngst veröffentlichte die Berliner Morgenpost eine Visualisierung des Twitterverkehrs von Mitgliedern des Abgeordnetenhauses. Tools wie Gephi haben es recht einfach gemacht, große Datenmengen auf ihre Relationen zu betrachten; auch Google bietet das mit seinen Fusion Tables an.
Aber erzählen solche Diagramme eine „Geschichte“? Sind sie Journalismus, stellen sie einen bemerkenswerten Sachverhalt dar, dokumentieren sie etwas wenig Bekanntes, finden sie etwas heraus?
Tony Hirst, Datenjongleur an der Open University in England, brachte es neulich gut auf den Punkt:
I find maps like this fascinating, but I’m still trying to work out how we can make them useful.
Im Falle der Morgenpost-Grafik würde ich sagen: nein, wirklich nützlich ist sie nicht. Es überrascht nicht, dass Piraten und auch Grüne viel twittern. Und sich auch ab und zu untereinander aufeinander beziehen. Die Grafik zeigt letztlich nur sattsam Bekanntes in anderer Form. Erkenntnisgewinn gibt es hier nicht – und um Erkenntnis oder zumindest informationellen Mehrwert geht es meiner Meinung nach fundamental bei Journalismus.
Was bei solch einem Twitterdiagramm fehlt – ein Mangel der auch wahl.de letztlich recht witzlos macht – ist der zweite Schritt: Eine automatisierte Analyse des Inhalts des Nachrichtenaustausches. Was sind Schlüsselworte, worauf wird sich bezogen, was wird verlinkt? Damit würde aus der Darstellung ein wirkliches Analysewerkzeug. Zugegebenermaßen ist das technisch gesehen nicht trivial – andererseits wäre ein Tool, das solch Auswertung erlaubt, immer wieder einsetzbar – eine höhere Investition würde sich allemal langfristig auszahlen.
Nicht falsch verstehen: Die Berliner Morgenpost war dieses Jahr neben der Süddeutschen Zeitung her der Ort, an dem hierzulande online am meisten in Richtung Datenjournalismus experimentiert wurde; nicht zuletzt wegen den Arbeiten von Julius Tröger.
Mit dem Thema Analyse ist es eh so eine Sache; der Zugmonitor, den wir dieses Frühjahr mit süddeutsche.de herausbrachten, bietet nur ansatzweise Analysemöglichkeiten. Eigentlich wäre da viel mehr drin gewesen. Eine Darstellung von Verspätungsschwerpunkten etwa oder ein Vorhersageservice: Welche Verspätung werde ich voraussichtlich bei dieser Verbindung haben? Das Anbieten von solch Funktionalität war bei dem Projekt aber letztlich wegen Budget und damit Zeitmangel nicht drin.
Eine weitere beliebte Visualisierungsform sind Aufschlüsselungen von Haushalten oder Bugdets. Siehe etwa Offenerhaushalt.de, Offene-Entwickungshilfe.de oder „Where does my money go“. Allerdings wird eben diese Frage nicht wirklich beantwortet. Es wird gezeigt, wofür Geld augegeben wird. Wohin es aber „geht“, wer es verdient, wer profitiert – das zeigen diese Anwendungen nicht. Dabei ist das gerade der springende Punkt, der brisante, der mit hohem politischen Gehalt.
Wenn es heißt, dass der neue Berliner Flughafen 4,3 Milliarden Euro kosten wird, doppelt so hoch wie geplant – dann ist doch die spannende Frage: Wer wird denn diese zusätzliche Milliarden Steuergelder einnehmen? Wieviel Arbeitsplätze werden dadurch finanziert, welchen Effekt hat das bei Steuereinnahmen, wer bereichert sich usw. usf.?
Wenn Visualisierungen nur an der Oberfläche kratzen – ohne weiter zu gehen – laufen sie Gefahr, Transparenz nur zu suggerieren, blinde Flecken zu verstärken. Gut zu sehen etwa bei der Haushaltsvisualisierung vom Finanzministerium selbst.
Insofern steckt im Datenjournalismus immer noch unausgeschöpftes Potential. Genauso wie im gesamten Bereich Open Data. Abgesehen von OpenStreetMap bleibt dort nach wie vor das einzige wirklich Projekt mit „Killerapp“-Potential OpenCorporates: Wenn dieses offene internationale Handelsregister mit Ausgaben der öffentlichen Hand automatisiert abgeglichen werden kann – dann wird es erst wirklich spannend.
Crosspost von datenjournalist.de
Nehmen wir mal für einen Moment an, ich bin Teil des dargestellten Netzwerks und nehme mein Recht auf Informationelle Selbstbestimmung ernst: Wie kann ich entfernt werden?
Account löschen und nächstes Mal die EULA des Netzwerks vor dem Anmelden gelesen haben?
Das Problem bei solchen Visualisierungen ist, dass man eben doch wissen muss, was eigentlich visualisiert wird und welche Aspekte der Visualisierung Bedeutungen tragen und welche nicht. Im Graph oben scheint die Länge der Kanten nicht bedeutend zu sein. Informativ für das Thema fand ich: http://www.security-informatics.de/blog/?p=989
Auch wenns hier mehr um Aufklarung geht … es bestatigt doch alles. Fur den Staat sind vorallem die Standort-/Bewegungsdaten interessant, fur die Privatwirtschaft (Werbung, Abmahner …) Namen und Adressen zu IPs. Kontaktdaten sind eher uninteressant ;)