Eine Initiative von Datenjournalist:innen aus ganz Deutschland kritisiert das Robert-Koch-Insitut für dessen bisherige Datenpolitik. Das Institut veröffentliche Daten bisher zu wenig und vor allem in Formaten, die sich nicht zur weiteren Analyse eignen – etwa in Berichten mit Texten und Bildern.
Um ihre Aufgabe erfüllen zu können, nämlich den gesellschaftlichen Diskurs über gute Entscheidungen in der Krise angemessen zu begleiten, brauchen die Journalist:innen allerdings maschinenlesbare Daten. Nur so können sie die Arbeit der Gesundheitsbehörden ausführlich darstellen und kritisch hinterfragen, heißt es in dem Schreiben, das die Journalist:innen heute an das Robert-Koch-Institut geschickt haben.
Insgesamt 45 Datenjournalist:innen haben unterzeichnet. Sie arbeiten in Daten-Teams unter anderem bei den öffentlich-rechtlichen Medien von ARD und ZDF, bei der Süddeutschen Zeitung, bei der Funke Mediengruppe oder beim Spiegel.
Zuverlässige Datenquelle
Die Initiative beklagt schlechte Erfahrungen und mangelhafte Informationen aus dem Robert-Koch-Institut: „In den vergangenen Tagen und Wochen haben Sie aus vielen unserer Redaktionen zahlreiche Datenanfragen erhalten, die leider zu oft nur teilweise oder gar nicht beantwortet worden sind.“
Deshalb haben sich die Datenjournalist:innen zusammengeschlossen und fordern nun gemeinsam tagesaktuelle Daten, als Zeitreihe und regional so fein wie möglich aufgegliedert, maschinenlesbar und immer gleich strukturiert. Außerdem sollten Datensätze nicht überschrieben werden, sondern auch alte Versionen erhalten bleiben. All das trägt dazu bei, dass die Daten in den einzelnen Redaktionen automatisiert ausgewertet werden können.
Als Vorbild nennt der offene Brief den Daten-Hub „RKI COVID19“. Diese Plattform wird betrieben von ESRI, einem Softwarehersteller für Geoinformationssysteme. Nach Angaben des Europäischen Datenportals entstand die Plattform in Zusammenarbeit mit dem RKI, der Uni Bonn und deren Arbeitsgruppe für geographische Gesundheitsforschung „GeoHealth Centre“.
Ein Datenkatalog als Orientierungshilfe
Dabei gliedern die Journalist:innen ihre Forderungen in zwei Bereiche: Einerseits wünschen sie sich, dass das Robert-Koch-Institut offenlegt, wie es die eigenen Daten bisher verarbeitet. Dazu zählt auch, in welcher Form das Institut und die Gesundheitsbehörden die Daten erfassen – etwa zu bestehenden Datenbanken, erfassten Merkmalen, vorhandenen Metadaten und begleitenden Dokumentationen.
Andererseits stellt die Initiative einen umfassenden Datenkatalog vor. Darin fordern sie die anonymisierten Datensätze zu Tests und Infizierten wie Fallzahlen, Sterbefälle, Genesene und Altersgruppen. Außerdem sollten Schätzungen der Reproduktionszahl R öffentlich verfügbar sein, genauso wie der Code hinter den Schätzungen zur aktuellen Situation im Rahmen des „Nowcasting“ oder anderen Publikationen. Diese Aufstellung sei allerdings nicht erschöpfend, stellen die Journalist:innen klar, sondern eine Anregung für einen andauernden Austausch.
—
Hier der Brief:
#OpenCoronaData – Appell an das Robert Koch-Institut von 45 Datenjournalistinnen und Datenjournalisten
An den
Präsidenten des Robert Koch-Institut
Herrn Professor Dr. Lothar H. Wieler
Nordufer 20
13353 Berlin
Stuttgart / Hamburg / Baden-Baden, den 18. Mai 2020
Sehr geehrter Herr Prof. Wieler,
die Bekämpfung der Pandemie stellt Gesellschaft, Wissenschaft, Politik, Wirtschaft und Medien vor großen Herausforderungen. Sie haben stets betont, dass wir sehr lange mit diesem Virus werden leben müssen. Das bedeutet für uns als Journalistinnen und Journalisten, dass wir mitten in einer sehr lange andauernden Situation der Berichterstattung stehen.
Unsere Aufgabe ist es ausführlich darzustellen und kritisch zu hinterfragen, wie Entscheidungen fallen, ob Prozesse funktionieren und wie Akteurinnen und Akteure in der Bekämpfung der Epidemie handeln – auch Gesundheitsbehörden. Wir benötigen daher umfassende Informationen zu dieser Epidemie, um den gesellschaftlichen und politischen Diskurs über die richtigen Entscheidungen in dieser Krise evidenz- und faktenbasiert zu begleiten und zu bereichern. Das gelingt in besonderer Weise, wenn wir dazu verlässliche Daten darstellen und analysieren können. Leider reichen die Daten, die das Robert Koch-Institut bisher veröffentlicht, dafür nicht aus. Auch die Art der Veröffentlichung (z.B. in text- und bildbasierten Berichten, statt in maschinenlesbaren Datensätzen) hindert uns daran, die Bevölkerung ausreichend über die Epidemie zu informieren.
Deshalb wenden wir, die unterzeichnenden 45 Datenjournalistinnen und Datenjournalisten, uns mit einem gemeinsamen Anliegen an Sie und fordern Sie auf, offene Corona-Daten schnellstmöglich bereitzustellen und diesen Ansatz mit Nachdruck voranzutreiben und zu unterstützen.
Stellen Sie die Corona-Daten des Robert Koch-Instituts möglichst umfassend, vollständig, regelmäßig und zeitnah für die Öffentlichkeit zur Verfügung.
Bitte tragen Sie auch Sorge dafür, dass Ihre Behörde (und insbesondere Ihre Pressestelle) personell, technisch und inhaltlich in die Lage versetzt wird, diesem datenbezogenen Informationsinteresse der Medien Rechnung tragen zu können.
In den vergangenen Tagen und Wochen haben Sie aus vielen unserer Redaktionen zahlreiche Datenanfragen erhalten, die leider zu oft nur teilweise oder gar nicht beantwortet worden sind. Wir benötigen aber freien Zugang zu Informationen. Das schließt insbesondere auch die Daten ein.
Der diesem Brief anhängende Katalog beschreibt, welche Daten Medien brauchen, um die dringend nötige Aufklärung in der Coronakrise zu leisten. Natürlich ist diese Aufstellung nicht erschöpfend. Darum möchten wir dringend anregen, mit uns in einen kontinuierlichen Prozess einzutreten. Der Presseworkshop zur Reproduktionszahl war ein gutes Beispiel für einen vertrauensvollen, offenen und tiefgreifenden Austausch. Wir vertrauen darauf, dass Sie diese Art der Zusammenarbeit mit den Medien, insbesondere mit uns Datenjournalistinnen und Datenjournalisten, intensivieren.
Mit offenen Daten tragen Sie wesentlich dazu bei, dass das Vertrauen der Bevölkerung in unsere Berichterstattung und letztlich in die staatlichen Institutionen in dieser Krise nicht verloren geht. Wir beobachten mit größter Sorge, dass immer mehr Fake News auftauchen und sich viele Menschen rationalen Überlegungen verschließen und Verschwörungstheorien zuwenden. Wir hoffen inständig, das RKI dafür gewinnen zu können, dieser Entwicklung das Beste entgegenzusetzen, was einer offenen Gesellschaft passieren kann: Transparenz und Öffentlichkeit – allen voran auch bei den Corona-Daten.
Mit freundlichen Grüßen
Ihre Datenjournalistinnen und Datenjournalisten*
*Die Initiative ist ein informeller Zusammenschluss von Datenjournalistinnen und Datenjournalisten deutschsprachiger Medien. Ansprechpartner für Rückfragen sind: Johannes Schmid-Johannsen, Björn Schwentker und Jan Georg Plavec.
[…]
Datenkatalog
A. Offenlegung der Datenspeicherstruktur der Corona-Daten des Robert Koch-Instituts bzw. (soweit in Abstimmung mit dem RKI erstellt) der Gesundheitsbehörden in Deutschland (Namen der Datenbanken, Angaben der Merkmale bzw. Spalten, Metadaten und Dokumentationen)
B. Die folgenden Daten sollten generell tagesaktuell, als Zeitreihe, und regional so fein wie möglich aufgegliedert veröffentlicht werden. Das Datenformat sollte maschinenlesbar und immer gleich strukturiert sein. Als Vorbild kann der Daten-HUB “RKI COVID19” dienen (https://npgeo-corona-npgeo-de.hub.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329 dd6_0/data). Wo immer möglich, wäre es wünschenswert, in diesen Datensatz die genannten neuen Merkmale einzupflegen. Datensätze sollten nicht überschrieben, alte Versionen erhalten bleiben.
1. Bereitstellung aller anonymisierten Datensätze der Epidemie insbesondere des Infektionsgeschehens als vollständige (auch historische) Zeitreihen, insbesondere:
-
- a. Fallzahlen mit imputiertem Erkrankungsbeginn (wie im Nowcast verwendet)
-
- b. Sterbefälle mit Sterbedatum
-
- c. Fallzahlen mit zusätzlichen Kategorien nach IfSG (z.B. §§ 23, 33, 36 oder 42, wie im Lagebericht dargestellt) z.B. nach Arbeitsstatus oder Wohnverhältnissen der positiv getesteten Personen
-
- d. Genesene mit dem bereits vorliegenden echten oder geschätzten Genesungsdatum (ersetzt durch die Angaben aus den erweiterten
-
- Meldepflichten, sobald diese vorliegen)
-
- e. Altersgruppen so genau wie möglich (idealerweise 5 Altersjahre)
- f. Alle Zeitstempel im Ablauf des Meldeverfahrens (z.B. Eingang der Meldung beim Gesundheitsamt, Erkrankungszeitpunkt, Datenweitergabe an Land, Datenweitergabe an RKI, Veröffentlichung durch das RKI)
2. Tägliche Angaben zu Testungen und deren Ort (Z.B. Arztpraxis oder Stationstyp im Krankenhaus), getesteten Personen (mit Geschlecht und Altersgruppe), positiven Testergebnissen, Anzahl übermittelnder Labore und Testkapazitäten, Anzahl von Laboren mit Rückstau und dessen Ausmaß in abzuarbeitenden Proben, Ausmaß von Lieferschwierigkeiten und der betroffenen Artikel.
3. Die genaue Schätzung von R mit Konfidenzintervallen, die anscheinend auch auf Länderebene zur Verfügung gestellt wird wie z.B. für Berlin.
4. Der Code hinter dem Nowcast aber auch hinter Veröffentlichungen wie den „Beispielszenarien der SARS-CoV-2- Epidemie 2020 in Deutschland“
5. Aus dem „R-Workshop“ ist uns ferner bekannt, dass das RKI regelmäßig Gesundheitsämter abfragt, wie groß die Belastung ist. Die Ergebnisse dieser regelmäßigen Umfrage würden wir auch gerne veröffentlicht sehen.
Also ich weiß nicht mehr, woher ich die URL habe, aber ist das File unter https://opendata.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329dd6_0.csv nicht genau das, was da alle haben wollen?
Darüber bin ich heute auch gestolpert. Es gibt ja auch die „Nationale Plattform für geographische Daten“. Dort taucht zwar der Name des RKI auf, aber es finden sich keine weiteren Informationen z.B. zu Datenquellen und -zuverlässigkeit. Meine Anfrage an die Betreiber esri war leider sehr kurzfristig und ich habe noch keine Antwort. Sobald die da ist, gibt es ein Update. Außerdem gehen die Forderungen des offenen Briefs über das Angebot dieser Plattform hinaus.
Das genannte CSV ist genau der „RKI Covid-19“ Datensatz der ESRI-Plattform. ESRI stellt ihn für das RKI auf deren Datengrundlage bereit. Die Datenmenschen aller Redaktionen, die ich kenne, arbeiten mit diesem Datensatz. Weil wir nichts Besseres haben, und weil er technisch das bietet, was wir brauchen (Maschinenlesbarkeit durch eine verlässliche API). Dennoch reicht er inhaltlich leider bei weitem nicht aus. Die Daten, die wir in unserem Katalog aufzählen, stehen dort alle nicht drin. (Z.B. so simple Angaben wie Genesungs- oder Todeszeitpunkte.) Und was man auf den ersten Blick nicht sieht: Der komplette Datensatz überschreibt sich jeden Tag selbst. Ältere Bestände sind nicht mehr verfügbar, und darum manche Dinge nicht nachvollziehbar (etwa die konkreten Meldeverzüge einzelner Kreise oder die Imputationen der Fälle (damit man Erkrankungszeitpunkte hat), der Nowcast (damit man aktuelle Zahlen ohne Meldeverzug hat)- und letzlich die
R-Berechnungen des RKI.)
Ernstgemeinte Frage, kann nicht einer der 45 Datenjournalisten mal die csv täglich abspeichern und per github allen zur Verfügung stellen? Dann wäre doch zumindest schonmal ein Problem gelöst.
Ich bin einer der Unterzeichner. Ja, wir haben rückwirkend bis Ende März die Daten in einem GitHub-Repo archiviert und hoffentlich schaffe ich es noch diese Woche, das Repo zu veröffentlich.
Jedoch sind die Daten wahnsinnig schwierig zu interpretieren. Das RKI meldet z.B. Fälle, die dann Tage später wieder gelöscht werden, dafür gibt es dann aber neue Fälle. Das könnte bedeuten, dass positiv getestete Personen doch nicht infiziert waren, oder aber, dass die Datenbankeinträge geändert wurde (Korrektur von Alter, Geschlecht oder Erkrankungsdatum). Und das sind täglich viele Fälle: https://npgeo-corona-npgeo-de.hub.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329dd6_0/data?where=NeuerFall%20%3E%3D%20-1%20AND%20NeuerFall%20%3C%3D%20-1 (NeuerFall == -1)
Die Tabelle sieht toll aus, aber eigentlich kodiert sie das täglich Diff zweier aggregierte Tabellen.
Zudem ArcGIS auch warum auch immer die „ursprüngliche Quelle“ übernommen hat?
Z.B. https://experience.arcgis.com/experience/478220a4c454480e823b17327b2bf1d4 war vorher https://gcber.org/corona/ und eine Unterseite der Deutsch-Chinesischen Wirtschaftsforschung, die regionale Befälle in Deutschland nach Kreis genau aufgezeigt hat. Und zwar besser als die nun aktuelle Seite.
Was auch immer die Bewandnis dahinter ist. Wahrscheinlich um China aus dem Fokus zu nehmen? Ich weiss es nicht.
Die Firma ArcGIS selbst hat ihren Sitz in Indien. https://www.crunchbase.com/organization/arcgis#section-overview – Zur gleichen Sparte gehört die bereits genannte Firma ESRI aus Los Angeles. Beide Firmen von Jack Dangermond und beides Analyticsplattformen.
Scheint demnach nur eine Quelle zu geben, die in der Hand dieser Gruppe liegt.
„Die Firma ArcGIS selbst hat ihren Sitz in Indien. https://www.crunchbase.com/organization/arcgis#section-overview – Zur gleichen Sparte gehört die bereits genannte Firma ESRI aus Los Angeles. Beide Firmen von Jack Dangermond und beides Analyticsplattformen“
Dieser Satz tut mir als Branchenkenner im Herzen weh. Der nationale Hub Geodaten, der die aktuellen Daten vom RKI bereit stellt ist eine deutsche GmbH (http://esri.de/), die als Vertriebspartner für die amerikanische Mutterfirma in Deutschland tätig ist. Wie auch immer du auf Indien kommst….
Auf meine Presseanfrage zum Datenangebot des Softwareherstellers Esri wurde ich auf deren Pressemitteilung vom 20. März verwiesen: https://www.esri.de/de-de/newsroom/news/neues-von-esri/20200320-covid-19-dashboard-vom-robert-koch-institut-in-kooperation-mit-esri-deutschland. Darin heißt es auch, dass die Esri Deutschland im Rahmen seines Disaster Response Programs (DRP) die Dienstleistungs- und Betriebsaufwände übernommen habe. Die Zahlen kommen „auf elektronischem Wege“ ausschließlich über das RKI aus den Gesundheitsämtern. Nach Angaben von Esri nutzen auch Krisenstäbe oder Landesregierungen wie Berlin und Brandenburg, aber auch beispielsweise das Bundesministerium für Gesundheit das Dashboard. Aber vor allem – wie auch Michael Kreil oben schon erklärt hat: Die Daten werden täglich aktualisiert und die Plattform bildet so nur den jeweils aktuellen Stand ab.
Richtig bemerkt, nur leider schreiben wir von 2 verschiedenen Dingen.
Ich beziehe mich auf die *.com – ArcGIS.com wie sie im Text vorher gepostet wurde und die befindet sich nicht in deutscher Hand.
Wenn Esri eine deutsche Niederlassung hat (auch verlinkt), mag das ebenfalls gut und schön sein, aber ich habe kein Wort über nationale Ebene in dem Kontext verloren.
Nichts für ungut, die Formulierung war um die Uhrzeit wohl nicht die beste Wahl…
Ich finde die Forderungen unausgegoren und teilweise überzogen.
Punkt A wie das RKI seine Daten speichert und seine Datenbanken benennt ist doch völlig unerheblich.
Punkt B geht teilweise aus Datenschutzgründen nicht und andere Dinge sind gut erklärt worden. Zum Beispiel wie die aktuelle R Zahl berechnet wird.
Wenn ihr gern historische Daten wollt dann fragt doch die schon vorhanden Schnittstellen täglich ab und speichert es selbst. Und selbst wenn man das bis heute nicht gemacht hat, gibt es für die wichtigsten Daten täglich generierte Dokumente aus denen man es sich rausparsen kann.
Für mich ist der Brief 10-20% berechtigte Anfrage und der Rest Mimimi.
oder man nutzt die vom RKI bereitgestellte Datenschnittstelle unter:
https://survstat.rki.de/Content/Query/Create.aspx
Der letzte Datenstand ist vom 2020-04-03 und umfasst 68’746 Fälle. Inzwischen fehlen dort also über 100’000 Fälle.
Also nein, keine sinnvolle Schnittstelle.
Mich erstaunt, dass die Unterzeichnererst Monaten artikulieren, was sie benötigen. Das Problem ist ist sei den ersten RKI-Berichten in PDF-Form deutlich.