Datenschützer:innen und Netzaktivistinnen sind mit der neuen Datenspende-App des Robert Koch-Instituts nicht zufrieden. Zu intransparent, zu schlecht kommuniziert. Doch was kann das Institut aus den Pulsdaten von Hunderttausenden in Deutschland überhaupt ablesen? Ein Interview mit Dirk Brockmann, Leiter der Arbeitsgruppe Epidemiologische Modellierung.

Auf den ersten Blick ist diese App für das Robert Koch-Institut (RKI) ein voller Erfolg. Rund 400.000 Menschen in Deutschland haben bereits zugestimmt, dem RKI über eine App intimste Informationen über ihren Körper zu überlassen. Sie messen ohnehin schon ihren Puls oder ihren Schlafrhythmus mit Hilfe von tragbaren Sensoren am Körper. Diese Informationen teilen sie nun mit dem RKI, täglich.

„400.000 Menschen, das ist mehr als ich je erwartet hätte,“ sagt Dirk Brockmann. Brockmann ist Professor im Fachbereich Biologie der Humboldt Universität. Am RKI leitet er eine Arbeitsgruppe, die mit Hilfe dieser Daten Modelle der Epidemie baut. „Mathematik der Viren“ nannte das die Süddeutsche Zeitung einmal. Sie sollen im Kampf gegen Covid-19 dabei helfen, Vorhersagen zu treffen über die Dunkelziffer der Infizierten und die nächsten Hotspots. Kurz: dem Virus einen Schritt voraus zu sein statt drei Schritte hinterher. Brockmann ist auch einer der Autoren der Stellungnahme der Nationalakademie Leopoldina zur Pandemie, die vergangenen Woche für Aufsehen sorgte.

Doch für die vergangene Woche veröffentliche App mussten Brockmann und das RKI viel Kritik einstecken. Datenschützer:innen bemängelten unter anderem, dass die Forscher:innen die Technik eines Berliner Start-ups nutzen, die nicht quelloffen ist. Das heißt, dass Spender:innen darauf vertrauen müssen, dass ihre Daten geschützt sind, überprüfbar ist das nicht. Theoretisch könnten die App-Betreiber:innen beispielsweise die Pulsdaten einzelnen Personen zuordnen und so einiges über deren Lebensgewohnheiten und Gesundheitszustand ableiten. Die Gesellschaft für Informatik, die sich sonst nicht schnell zu vernichtenden Urteilen hinreißen läßt, bemerkte nur trocken, die Anwendung erfülle in Hinblick auf Datenschutz und IT-Sicherheit nicht die grundlegenden Anforderungen. Die App sei „überraschend schlecht gemacht und daher dem Schutz der Bevölkerung eher abträglich“.

Wie kam es zu der Entscheidung? Was lässt sich aus den Ruhepulsdaten von Hunderttausenden Menschen in Deutschland für Brockmann und seine Kolleg:innen überhaupt ablesen? Wie gelangt man von dort zur Dunkelziffer der Infektionen, die das RKI zu entschlüsseln hofft? Darüber sprachen wir mit Dirk Brockmann, der – versteht sich – zu Hause im Home Office sitzt.

netzpolitik.org: Wann ist die Idee entstanden, die Ruhepulsdaten von Menschen in Deutschland mit einer Datenspende-App zu sammeln?

Dirk Brockmann: Über Datenspende an sich denke ich schon Jahre nach, also eine Schnittstellen zu schaffen, über die Bürgerinnen und Bürger mit der Wissenschaft zusammenarbeiten können. Soziale Netzwerkdaten und Gesundheitsdaten werden ja derzeit von Fitbit und anderen Anbietern von Wearables abgesaugt und an Dritte weiterverkauft, die Firmen verfolgen damit kommerzielle Ziele. Für die Gesundheitsforschung wären diese Daten aber ebenfalls wertvoll. In den USA gibt es bereits solche Plattformen, wo man seine Daten für die Forschung zur Verfügung stellen kann, die man selbst sinnvoll findet. Ich fand diese Idee eines solchen Datentreuhänders genial, weil man eine vertrauenswürdige Instanz schafft, die vermittelt.

netzpolitik.org: Wie kam es zu der Zusammenarbeit mit dem Gesundheits-Startup Thryve, die die Datenspende-App für das RKI entwickelte?

Anfang März kam der Gründer Paul Burggraf auf mich zu und sagte, er habe eine Technologie, die für uns interessant sein könnte. Er kannte meine Forschung und zeigte mir eine Studie, die zeigte, wie man aus Puls- und Schlaffrequenzdaten Fiebersymptome ableiten und Epidemien verfolgen kann. Ich war gerade am RKI dabei, Modelle für die Covid-19-Pandemie zu erstellen. Wir wollten das hochauflösender machen: nicht nur auf ganz Deutschland schauen, sondern auf einzelne Landkreise. Damit wollten wir neue Infektions-Hotspots wie Heinsberg früh erkennen. Gleichzeitig wusste ich, dass das Meldesystem der Gesundheitsämter durch sehr alte Strukturen behindert wird, da werden noch Faxe verschickt (Hier haben wir ausführlich darüber berichtet). Das machte mir Sorgen, dass die gemeldeten Fallzahlen keine gute Stichprobe der Realität mehr sind.

In dieser Situation kam Thryve auf mich zu. Ich dachte: Wenn wir nach Landkreisen aggregiert Symptomatik messen können und sehen könnten, in diesem Landkreis haben zehn Prozent mehr Leute Fieber als man erwarten würde, dann hätte man ein Maß für den Infektionsgrad dort. Im Prinzip ist diese App ein Fieberthermometer auf Landkreisebene in Echtzeit – wenn es funktioniert.

Grippe oder Covid-19?

netzpolitik.org: Aus dem erhöhten Ruhepuls einer Person lässt sich also laut einer Studie ableiten, dass jemand wahrscheinlich Fieber hat. Das könnte aber auch an einer einfachen Grippe liegen.

Brockmann: Man muss das ergänzend sehen zu anderen Methoden, die am RKI zum Einsatz kommen, wie etwa dem System GrippeWeb zur Grippeüberwachung. Wenn in einem Landkreis das Fieber signifikant hochgeht und dort nicht gerade gleichzeitig eine Grippewelle auftritt, ist das ein Indikator, dass es etwas mit Covid-19 zu tun hat.

Das Ganze ergibt sowieso nur Sinn, wenn ich das für eine Population betrachte, denn bei solchen Messungen hat man immer statistische Fehler. Es kann sein, dass der Algorithmus bei zehn Menschen fälschlicherweise davon ausgeht, sie hätten Fieber, obwohl das nicht stimmt. Für eine größere Population erkennt man trotzdem einen bedeutsamen Unterschied. Ich sehe dann: von Tausend Leuten in Berlin-Schöneberg ist der Ruhepuls im Mittel um zehn Prozent gestiegen.

netzpolitk.org: Wie viele Menschen braucht man als Stichprobe für einen Stadtteil oder Landkreis, um daraus eine relevante Veränderung ableiten zu können?

Brockmann: Das weiß ich noch nicht. Mein Gefühl sagt, ab rund hundert Personen kann man etwas erkennen. Ursprünglich hatte ich gehofft, dass 10.000 Menschen uns ihre Daten spenden würden. Dann wäre es knapp geworden, denn wenn man 10.000 Menschen auf ganz Deutschland verteilt, bleiben pro Landkreis nicht mehr viele. Jetzt haben wir aber mit aktuellem Stand mehr als 400.000 Nutzer:innen. Das sind im Mittel 1400 pro Landkreis – viel mehr als ursprünglich erwartet.

netzpolitik.org: In machen Landkreisen wohnen 50.000 Menschen, in anderen eine halbe Million.

Brockmann: Wir wissen noch nicht, wie sich das verteilt, aber ich gehe davon aus, dass wir selbst in dünn besiedelten Landkreisen deutlich über 300 Spender:innen liegen werden.

netzpolitik.org: Wie sehen die Daten aus, die über die Datenspende-App bei Ihnen landen?

Brockmann: Wir sehen für jede Person, die Daten gespendet hat, die Postleitzahl und den Puls, versehen mit einer individuellen Nutzer-ID, dem Pseudonym. Dabei achten wir darauf, die Daten so zu aggregieren, dass einzelne Signale anonym sind. Wenn ich in einer Postleitzahl auf Jüst einen Ruhepuls sehe und dort wohnt nur eine Person, dann ist das nicht mehr anonym, sondern nur noch pseudonym. Wir haben uns deswegen entschieden, die Daten für die Analysen auf Landkreisebene zusammenzufassen.

netzpolitik.org: In der App selbst werden noch sehr viel mehr Daten abgefragt, etwa auch das Alter oder das Geschlecht. Wozu brauchen Sie diese Daten?

Brockmann: Ich wollte die Daten gerne nach Geschlecht aufschlüsseln können, weil ich mir vorstellen kann, dass es dort Unterschiede gibt. Die Covid-19-Erkrankung trifft die Geschlechter ja unterschiedlich. Die Daten zum Alter haben wir erhoben, um eine mögliche demografische Verzerrung heraus rechnen zu können. Die Gruppe der Menschen, die so einen Fitnesstracker nutzen, ist ja nicht repräsentativ für die Bevölkerung. Menschen über 80 nutzen so etwas selten, gehören aber zur Risikogruppe. Das müssen unsere Modelle berücksichtigen.

netzpolitik.org: Hatten Sie Bedenken, so viel Persönliches über ihre Spender:innen zu erfahren?

Brockmann: Ich war ziemlich blauäugig, habe aber inzwischen viel gelernt. Unser Datenschutzbeauftragter am RKI hat mir erst mal erklärt, dass es zu riskant sei, Metadaten wie Alter und Geschlecht einfach mit abzuspeichern. Denn damit wäre es zu einfach, einen pseudonymen Datensatz wieder einer Person zuzuordnen. Jetzt geben die Nutzer:innen in der App ihr Alter nur in 5-Jahres-Kategorien an, etwa dass sie zwischen 30 und 35 Jahre alt sind, und wir aggregieren diese Daten für die Region.

Von Pulsdaten zur Dunkelziffer der Infektionen

netzpolitik.org: Wie gelangt man von dem Wissen um Fieber zu ihren Prognosen zu den Dunkelziffern und zur Entwicklung der Pandemie?

Brockmann: Angenommen wir können messen, wie viele Leute in einem Landkreis Fieber haben über dem normal zu erwartenden Durchschnitt. Dann bauen wir daraus eine Karte und korrelieren die Zahlen mit den tatsächlichen Fallzahlen, die in einem Landkreis oder Bundesland gemeldet wurden. Der erste Test wäre zu prüfen, ob die gemeldeten Zahlen tatsächlich eine valide Stichprobe dessen sind, was laut Pulsdaten passiert. Es könnte ja sein, dass die höheren Zahlen an einem Ort nur darauf zurückzuführen sind, dass dort mehr getestet wird. Oder umgekehrt: Es sieht so aus als würde die Pandemie in einem Landkreis stagnieren, dabei sind einfach die Testkapazitäten begrenzt und in Wirklichkeit wächst im Hintergrund die Dunkelziffer in Gigantische. Solche Verzerrungen im Modell könnten wir dann erkennen.

Wenn die Anzahl der Leute mit Fieber tatsächlich korreliert mit den gemeldeten Fällen in den Bundesländern, dann könnten wir in einem zweiten Schritt sagen: Das, was wir täglich in Echtzeit über die Datenspende messen, wird die Basis für unsere prognostischen Modelle, wie sich die Pandemie entfaltet. Diese Modelle verwenden wir schon lange. Sie müssen aber gefüttert werden mit den richtigen Zuständen. Das ist wie bei der Wettervorhersage. Die funktioniert, weil man flächendeckend Wind und Feuchtigkeit messen kann.

netzpolitik.org: Und wenn die Daten falsch sind, stimmt die Vorhersage nicht mehr. Wie weit in die Zukunft lassen sich mit Hilfe solcher Modelle denn seriöse Vorhersagen treffen?

Brockmann: Es gibt einige, die gehen zehn Tage oder zwei Wochen in die Zukunft, da wird es aber wacklig. Irgendwann wächst die Spanne der Vorhersagen, die möglich sind, so stark an, dass im Prinzip alles möglich ist. Bei Ebola oder der Schweinegrippe hat man schon gesehen, dass das nicht funktioniert.

netzpolitik.org: Warum nicht?

Brockmann: Bei Ereignissen wie Pandemien reagiert die Gesellschaft sehr stark und ändert ihr Verhalten. Dadurch kommt es zu einer Rückkopplung zwischen Pandemie und gesellschaftlichem Verhalten. Wenn wir jetzt alle wieder rausgehen und normal Leute treffen, würde das wieder losgehen. Deshalb sind solche Prognosen maximal für eine Woche seriös zu treffen.

Offene Forschungsergebnisse, geschlossener Quellcode

netzpolitik.org: Datenschützer:innen kritisieren, dass die Datenspende-App nicht quelloffen ist. So muss man sich allein auf die Versprechen des RKI und der App-Entwickler verlassen. Warum haben sie keine offene Software verwendet?

Brockmann: Wir publizieren in der Regel alle unsere Forschungsergebnisse in offenen Formaten. Die Programme, mit denen wir modellieren, sind ebenfalls alle quelloffen.

netzpolitik.org: Aber ausgerechnet im Fall der Datenspende-App wäre diese Offenheit ein starkes Argument für Vertrauen gewesen, denn dann hätte man genau prüfen können, wie die App funktioniert und was mit den Daten passiert.

Brockmann: In diesem Fall war es eine Kooperation von uns als Wissenschaftlern mit einer Firma, die uns eine bereits existierende Software zur Verfügung gestellt hat. Solche Zusammenarbeit haben wir auch an anderen Stellen im RKI. Diese Firma legt ihren Code nicht offen, weil sie irgendwann damit Geld verdienen will. Aber wie die Verschlüsselung funktioniert oder wo die Daten gespeichert sind, das steht alles in unseren Berichten. Unser Datenschutzbeauftragter am RKI hat dazu seitenweise Texte erstellt.

netzpolitik.org: Diese Berichte sind allerdings nicht öffentlich, sondern müssen jetzt erst von Journalist:innen oder Aktivist:innen angefordert werden.

Brockmann: Wenn wir drei Jahre Zeit gehabt hätten, hätte ich das gerne anders gemacht, offener und mit einer offenen Diskussion darüber, wie man das aufrollt. Aber das ist immer eine Frage der Abwägung. Die Infektionszahlen gingen Anfang März tierisch hoch und wir brauchten so schnell wie möglich eine funktionierende Plattform.

netzpolitik.org: Die Veröffentlichung der App vergangene Woche kam für viele überraschend. In den Medien wurde zum dem Zeitpunkt vor allem über eine andere App des RKI zur Kontaktrückverfolgung diskutiert. Warum haben Sie vorab nirgends auf ihre Pläne hingewiesen?

Brockmann: Das war alles ein Durcheinander. Der Gründer von Thryve kam auf mich zu mit einer App, die schon fertig war. Damit musste ich erst mal Überzeugungsarbeit leisten. Zu der Zeit wurde noch diskutiert, ob man nicht Daten von Google auswerten könne. Den größten Schub bekamen die Ideen für Kontaktrückverfolgung, weil sich verschiedene Experten davon den größten Effekt erhofften. Wir haben viel diskutiert, etwa im Health Innovation Hub des Gesundheitsministeriums und am RKI, aber diese Technologie für die Datenspende über Fitnesstracker war das einzige, was schon fertig war. Thryve hatte bereits einen funktionierenden Algorithmus, der Fieber anhand von Pulsdaten nachweisen konnte. Wir hatten also ein Werkzeug und ein Paper, das zeigte, dass die Methode funktioniert. Ich wusste, damit können wir schnell agieren und das System kann für unsere Modelle wichtigen Input liefern. Das hat mich dazu bewogen, auf diese App zu setzen.

netzpolitik.org: Edward Snowden sprach von Befürchtungen, das Corona-Virus könne eine neue Ära der Bio-Überwachung einleiten. Welche weitergehenden Risiken so einer Datenauswertung sehen Sie?

Brockmann: Ich teile die Bedenken. Diese Pulssequenzen sind zwar pseudonymisiert, dennoch ist das ein höchstpersönliches Geschenk an die Gemeinschaft. Das sind sehr sensible Daten und ich habe schlaflose Nächte mit der Verantwortung, die ich dafür trage. Für mich hat deswegen oberste Priorität, dass wir die Ergebnisse nicht im Keller verschwinden lassen, sondern alle Erkenntnisse schnell teilen. Wir wollen eine Webseite aufsetzen und jeden Auswertungsschritt offenlegen, in verständlicher Sprache, vielleicht auch mit Videos. Die Leute sollen quasi mit im Labor stehen. Ich will, dass die Menschen verstehen, wie wir arbeiten und dass wir alles tun, um ihrem Vertrauensvorschuss gerecht zu werden. Wir müssen das Vertrauen der Spender jetzt verdienen.

Update, 17.4.2020: In einer früheren Version des Interviews stand, rund 400 Spender:innen pro Landkreis teilten ihre Daten mit dem RKI. Richtig ist 1400. Wir haben den Fehler korrigiert.