Neues aus dem Fernsehrat (87)Wie entwickelt das ZDF Empfehlungsalgorithmen?

Der öffentlich-rechtliche Auftrag von ARD, ZDF und Co muss sich bei Online-Angeboten wie den Mediatheken nicht nur in den Inhalten, sondern auch in deren Algorithmen widerspiegeln. Wie das ZDF versucht, diesem Anspruch gerecht zu werden, darüber habe ich mit Andreas Grün gesprochen, dem Technik-Chef der Hauptredaktion Digitale Medien.

Quellcode
Algorithmus. (Symbolbild) – Gemeinfrei-ähnlich freigegeben durch unsplash.com Ali Shah Lakhani

Von Juli 2016 bis Juni 2022 durfte ich den Bereich „Internet“ im ZDF-Fernsehrat vertreten, ab Juli 2022 werde ich als Mitglied des ZDF-Verwaltungsrats weiterhin mehr oder weniger regelmäßig Neues aus dem Fernsehrat berichten. Eine Serie.

Die öffentlich-rechtlichen Mediatheken verzeichnen seit Jahren kontinuierlich wachsende Zuschauerzahlen und ein immer größerer Teil von ihnen loggt sich dazu ein. Das ZDF verzeichnet inzwischen über 3 Millionen registrierte Nutzer:innen, von denen sich rund 800.000 pro Monat mindestens einmal anmelden und Inhalte nutzen. Wer sich einloggt und einen Altersnachweis erbracht hat, kann dann rund um die Uhr altersbeschränkte Inhalte konsumieren. Unabhängig von einem Altersnachweis können eingeloggte Nutzer:innen eine am Desktop begonnene Sendung am Smartphone fortsetzen und erhalten, sofern sie das möchten, personalisierte Empfehlungen.

In der ZDF-Mediathek werden Empfehlungen sowohl redaktionell als auch algorithmisch erstellt. In beiden Fällen stellt sich die Frage, wie solche Empfehlungssysteme gestaltet werden sollen, um dem demokratischen, vielfaltsfördernden Auftrag öffentlich-rechtlicher Medien gerecht zu werden. Im Rahmen dieser Reihe habe ich bereits vor drei Jahren einmal mit Charlotte Echterhoff über das Thema derart „demokratischer Algorithmen“ gesprochen.

Profilfoto Andreas Grün
Andreas Grün, Leiter Technologie in der ZDF Hauptredaktion Digitale Medien - Alle Rechte vorbehalten ZDF

Seit damals ist viel passiert und ich habe nach einer Präsentation im Fernsehrat-Ausschuss Telemedien Andreas Grün um ein Interview über den aktuellen Entwicklungsstand in Sachen Empfehlungsalgorithmen gebeten. Grün kam 2008 zum ZDF, nach einem Studium der Wirtschaftsinformatik an der TU Darmstadt und mehrjähriger Selbständigkeit im eigenen Start-up. Nach Tätigkeiten als Planungsingenieur in der Produktionsdirektion und als Chef vom Dienst Technik in der Hauptredaktion Digitale Medien, fungiert er dort aktuell als Leiter der Abteilung Technologie. Schwerpunkt seiner Arbeit ist die Weiterentwicklung der ZDF-Mediathek mit dem Fokus auf Architektur, Metadaten und Personalisierung.

In dem Maße, in dem Mediatheken wichtiger für die Nutzung öffentlich-rechtlicher Angebote werden, steigt auch die Bedeutung von (personalisierten) Empfehlungsalgorithmen. In welchen Bereichen arbeitet das ZDF heute schon mit solchen Empfehlungen?

Grün: Wir haben den Prozess in den vergangenen Jahren sehr ambitioniert vorangetrieben. Die ZDF-Mediathek ist heute bereits ein vielfach personalisiertes Angebot. Auf der Startseite haben wir personalisierte Empfehlungen unter „Das könnte Dich interessieren“ und „Weil Du … geschaut hast“ für alle Nutzer*innen. In der Mediathek empfehlen wir außerdem automatisiert beliebte Videos, die schon vor einer TV-Ausstrahlung verfügbar sind und weisen auf Sendungen hin, die nur noch kurz online sind. Eingeloggte Nutzer*innen haben zusätzliche Einstiege unter „Mein Programm“, hier finden sich Inhalte zum Weiterschauen oder Sendungen abonnierter Bereiche.

Um Nutzer*innen möglichst passende weitere Videos vorzuschlagen, wenn sie einen Beitrag geschaut haben, bieten wir automatisiert Empfehlungen und Folge-Videos an. Teilweise wird hier noch redaktionell kuratiert. Daneben sind Übersichtsseiten wie zdfinfo.de stark automatisiert mit algorithmischen Empfehlungen unter „Neu verfügbar bei ZDFinfo“ und „Derzeit beliebte Dokus“ sowie personalisierten Empfehlungen unter „Das könnte Dich interessieren,“ jeweils für alle Nutzer*innen. Empfehlungen sind insgesamt ein integraler Bestandteil der Mediathek und gerade über die Startseite und den Video-Player sehr präsent. Aber: Nutzer*innen, die keine Personalisierung wünschen, können sie in unserer Consent Management Platform natürlich komplett für sich abschalten.

Wie wirksam bzw. relevant für die Mediathek-Nutzung sind diese bereits etablierten Empfehlungssysteme?

Grün: Für die Mediathek ist das sogenannte Sehvolumen, also die Zeit, die Nutzer*innen bei uns verbringen, eine ganz entscheidende Währung. Gemessen daran haben die automatisierten Empfehlungen über die Jahre stark in ihrer Bedeutung zugenommen. Gerade in den nativen Apps auf Mobile und SmartTV sowie HbbTV nutzen viele Nutzer*innen den Weg über „Das könnte Dich interessieren.“ Auf diesen Plattformen kommen bis zu 50 Prozent des Sehvolumens über Empfehlungen auf der Startseite zustande.

Automatisierte Empfehlungen sind auch deshalb wirksam und relevant, weil sie mehr und breiter Inhalte kuratieren, als es manuell möglich wäre. Pro Tag erreichen rund 20 Prozent aller in der Mediathek verfügbaren Inhalte über eine automatisierte Empfehlung ihre Nutzer*innen, innerhalb von zwei Wochen nahezu die Hälfte. Das stützt unsere Annahme, dass unser Regelwerk Pluralität und Diversität der Nutzung stärkt.

Mediatheken von ARD, ZDF & Co müssen sich – auch auf netzpolitik.org – regelmäßig den Vergleich mit großen privaten Angeboten wie Netflix oder YouTube gefallen lassen. Inwieweit ähneln die Empfehlungsalgorithmen der ZDF-Mediatheken jener der privaten Konkurrenz?

Grün: Die genannten großen Anbieter lassen sich nicht vollständig in die Karten schauen, aber: Netflix, Google, Amazon Web Services (AWS) oder Meta veröffentlichen dazu auf eigenen Blogs und vor allem auf großen Fachkonferenzen, wie etwa der ACM RecSys. Das sind auch für uns sehr wichtige und wertvolle Informationsquellen. Wir nutzen ähnliche Konzepte und Algorithmen etwa in den Bereichen Natural Language Processing, session/sequenz-basierten Empfehlungen, Reinforcement Learning oder Wissensgraphen.

Mit Google oder auch AWS tauschen wir uns auch aktiv zu Algorithmen aus. Wir haben hier keine Berührungsängste, aber klare Leitlinien: Wir schreiben unsere Algorithmen selbst und nutzen nur quelloffen verfügbare Bibliotheken als Bausteine. Es gibt also keine Blackboxes oder Abhängigkeiten zu diesen Unternehmen bei den produktiv verwendeten Algorithmen.

Insgesamt können wir bei der Adaption neuer Verfahren unserer Auffassung nach nur so vorgehen, dass wir ihnen auf Basis eines tiefen Verständnisses eine klare öffentlich-rechtlich Prägung geben. So sind dann manche Verfahren bei uns erst mit einem gut begründeten Verzug im Vergleich zu den kommerziellen Anbietern im Einsatz – oder eben nicht.

Wo unterscheiden sich die ZDF-Algorithmen? Was macht für Sie einen öffentlich-rechtlichen Empfehlungsalgorithmus aus?

Grün: Wie erwähnt kennen wir die Details der Algorithmen der großen kommerziellen Anbieter nicht, daher kann ich nur über uns sprechen. Unsere Zielsetzungen leiten sich direkt aus unserem öffentlich-rechtlichen Auftrag ab. Die Grundlagen unserer Arbeit sind für die Mediathek die gleichen wie für lineares Fernsehen. Algorithmen übersetzen sie in ein entsprechendes Angebot. Ich nenne an dieser Stelle Relevanz und Vielfalt. Damit sind wir sicher an vielen Stellen nicht deckungsgleich mit einem Anbieter wie beispielsweise YouTube.

Der Bogen von unserem Auftrag bis hin zu Daten-Pipelines und den Algorithmen ist semantisch und ganz praktisch sehr weit gespannt. Wir denken, dass uns neben dem direkten Austausch mit unseren Nutzer*innen dabei spezifische Metriken helfen, öffentlich-rechtliche Werte messbar zu machen. Da geht es dann neben Reichweite und Sehvolumen vor allem um inhaltliche Diversität, aber auch, auf Ebene der einzelnen Nutzer*innen, um Größen wie Serendipität, also die Möglichkeit, algorithmisch unterstützt Nutzer*innen neue Themen und Bereiche zu eröffnen.

Das macht für mich öffentlich-rechtliche Algorithmik aus: Nutzer*innen in ihren Nutzungsbedürfnissen und persönlichen Interessen ernst nehmen, Vielfalt anbieten, anregend sein und neue Themen eröffnen.

Wenn die Förderung von Vielfalt so ein zentrales Kriterium für einen öffentlich-rechtlichen Algorithmus ist, welche Strategien werden hierfür verwendet, damit nicht immer nur mehr vom immer gleichen vorgeschlagen wird?

Grün: Generell werden alle Inhalte über Algorithmen empfohlen. Wie erwähnt sehen wir im Ergebnis einen sehr starken positiven Effekt der Algorithmen auf die aggregierte Vielfalt, also über alle Nutzer*innen hinweg. Konkret nutzen wir verschiedene Wege, um für mehr Vielfalt zu sorgen. Einmal limitieren wir die Anzahl sehr ähnlicher Inhalte in Empfehlungen, sodass nicht nur Videos einer oder weniger Sendungen angeboten werden. Dann nutzen wir beim Trainieren der Empfehlungsmodelle zunehmend längere Zeiträume und Samplings bei den Nutzungsdaten, um hier Recency Bias und Popularity Bias (es werden nur Inhalte gelernt und empfohlen, die ohnehin und vor allem in jüngster Zeit populär sind) gegenzusteuern, weil diese auch abträglich sind für die Vielfalt.

Außerdem arbeiten wir seit Anfang des Jahres auch mit Verfahren des Reinforcement Learning, bei denen wir explizit “neuere” oder eben bisher nicht oder wenig genutzte Inhalte empfehlen lassen. Es ist eine Vielzahl an einzelnen Bausteinen, aber sicher haben wir hier noch viel Luft nach oben für Verbesserungen.

Für personalisierte Empfehlungssysteme müssen natürlich zunächst Daten gesammelt werden. Manche sind hier skeptisch, weil sie in öffentlich-rechtlichen Angeboten ja gerade eine Alternative zu den kommerziellen Datenkraken sehen. Wie transparent ist das ZDF hier, was die Sammlung und Nutzung von Userdaten betrifft?

Grün: Über die technische Umsetzung der datenschutzrechtlichen Vorschriften, unsere Datenschutzerklärung und vor allem auch über unser im Dezember eingeführtes Consent Management System sind wir gut aufgestellt. Natürlich finden wir manchmal selbst und vor allem auch über Hinweise aufmerksamer Nutzer*innen immer wieder Dinge, die wir verbessern können und müssen, etwa wenn Abschnitte in der Datenschutzerklärung unverständlich oder unvollständig sind. Wir sind hier unseren Nutzer*innen sehr, sehr dankbar für diese Hinweise!

Und zuletzt: Mit Einführung der Personalisierung hat sich das ZDF in der Geschäftsleitung und auch gegenüber dem Fernsehrat klar committed: Jeder Inhalt in der Mediathek ist frei verfügbar, d.h. ohne Algorithmen, Datensammlung oder verpflichtendem Login.

Eine andere Transparenz-Baustelle betrifft die verwendete Software. Welche Rolle spielt hier Open-Source-Software und stellt das ZDF selbst auch Software unter offenen Lizenzen zur Verfügung im Bereich Empfehlungssysteme?

Grün: Wir nutzen grundsätzlich freie Software als Basis für unsere Empfehlungssysteme, bspw. die Implicit Library oder die bekannten Deep-Learning-Bibliotheken wie PyTorch oder Tensorflow. Wir planen, Teile unserer Algorithmik zu veröffentlichen. Vorbereitend werden wir dazu zunächst Model Cards veröffentlichen, die den konkreten Anwendungsfall und dazu die Verarbeitung der Daten während des Modell-Trainings und der Generierung der eigentlichen Empfehlungen sowie den Algorithmus beschreiben. Wir sind überzeugt, dass das wichtig ist, um eben nicht nur algorithmische Details bewertbar zu machen, sondern auch die journalistisch/publizistischen Überlegungen und die Umsetzung dahinter.

Generell glaube ich, dass in der öffentlichen Diskussion häufig auf Algorithmen und Software und zu wenig auf die Prozessierung der Daten fokussiert wird. Gerade hier entstehen aber leicht Probleme mit systematischen Verzerrungen, die in den Daten stecken. Das ist ein Thema, dass auch wir gerade im Fokus unserer Weiterentwicklung haben und konkret mit der Universität Mainz untersuchen.

Zum Abschluss, was sind die größten Herausforderungen für die Verbesserung öffentlich-rechtlicher Empfehlungssysteme?

Grün: Ich sehe hier drei Herausforderungen: Erstens, die konzise Übersetzung des öffentlich-rechtlichen Auftrags in Metriken und Algorithmen, in Abstimmung mit allen Gremien und Stakeholdern. Zweitens, die optimale Verbindung von redaktioneller, algorithmischer und nutzer-gesteuerter Kuration. Denn Algorithmen sind immer nur ein Teil, ein Werkzeug in der Distribution. Drittens, die Versorgung der Algorithmen mit den notwendigen Metadaten, etwa zu Geschlechterverteilung bei Mitwirkenden etc.

Vielen Dank für die Einblicke und die Zeit!

12 Ergänzungen

  1. Wenn nur ein bisschen Aufwand in vernünftige Suchfunktionen investiert werden würde, bräuchten wir keine Vorschlagsalgorithmen.

    Und übrigens: “ also die Zeit, die Nutzer*innen bei uns verbringen, eine ganz entscheidende Währung.“ – Währung in welchem Sinne?

  2. Die Diskrepanz zwischen diesem Gespräch über Algorithmen und der letzlichen visuellen Darstellung und Bedienbarkeit in der App, ist bemerkenswert. Die tollsten Algorithmen machen wenig Laune, wenn ich durch schlechtes Userinterface behindert werde.

  3. „Jeder Inhalt in der Mediathek ist frei verfügbar, d.h. ohne Algorithmen, Datensammlung oder verpflichtendem Login.“
    Wieso braucht es dann ein die komplette Seite überlagerndes Cookie-Banner???
    Und wieso kommt die ARD ohne aus?

    1. „Um ein relevantes journalistisches Angebot präsentieren zu können, das unserem Auftrag entspricht, ist eine Nutzungsmessung unbedingt erforderlich. Diese führen wir zu rein statistischen Zwecken durch, um feststellen zu können, wie unser Angebot genutzt wird.“ – hat wohl damit zu tun – ist das einzige voreingestelle Cookie.

      Die ARD macht das wahrscheinlich serverseitig, aber das ZDF ist ja lernfähig.

      1. „Künftig ist bei Nutzung von Technologien wie Cookies, Web Storage, Browser-Fingerprinting etc. – unabhängig von der Frage, ob dabei personenbezogene Daten verarbeitet werden – grundsätzlich eine Einwilligung der Nutzer:innen einzuholen.“
        Quelle:
        Das TTDSG – Neue Regelungen zum Einsatz von Cookies und vergleichbaren Technologien
        30.11.2021, Hamburgische Beauftragte für Datenschutz und Informationssicherheit, https://datenschutz-hamburg.de/pages/ttdsg/

        Siehe z.B. auch https://netzpolitik.org/?s=TTDSG+cookies

  4. Akamai,

    https://de.wikipedia.org/wiki/Akamai

    ein US-Unternehmen ist überall dort im Hintergrund.
    Die US-Verfassung nimmt uns vom Schutz der Privatheit (u.a. Datenschutz) generell aus, weil wir minderwertige Ausländer sind. Ganz anders die EU, die sogar US-Bürgern, ein einklagbares Recht auf Privatheit gibt, weil wir Europäer meinen, Privatheit sei ein derartiges Basisrecht, ohne das Freiheit, Würde und Demokratie nicht funktionieren.

    https://www.justsecurity.org/2668/foreigners-nsa-spying-rights/

    Ein paar Wochen Akamai-Daten für die USA und die Wissen exakt, wie jemand politisch tickt, wer er ist und was er sonst so treibt.
    Dreckige Hände, ZDF.

  5. 800000 Leute (1% der Deutschen) melden sich mindestens einmal im Monat an. Rechnet man die Altersheime mit dem 24h Fernsehern heraus, findet man ggf. nochmal 1% weitere Zuschauer. Ich frage mich, ob so ein Pay TV auch ohne entspr. Gesetze funktionieren würde.

  6. Welche Kosten fallen denn für die Bereitstellung des digitalen Angebots an? Bei nur 800.000 aktiven „Nutzer:innnen“ (wobei viele das Angebot nur ein oder wenige Male pro Monat aufrufen, was man wohl nur bedingt als aktiv bezeichnen kann) nutzen weniger als 1% der „Zahler:innen“ das digitale Angebot. Bei 8,1 Milliarden GEZ Gebührenaufkommen stellt sich doch die Frage, ob die Kosten nicht völlig unverhältnismäßig sind. Gerade bei digitalen Inhalten wäre ein Bezahlfernsehen problemlos umsetzbar, sodass nur die weniger als 1% tatsächlichen „Nutzer:innen“ dafür zahlen müssten.

  7. Interessante Einblicke, danke für das Interview!
    Aus meiner Sicht steckt viel Potential in guten Empfehlungsalgorithmen, insbesondere wenn sie die Suchfunktion ergänzen. Andreas Grün bezeichnet es als „Serendipität“, ich würde von „Nudging“ sprechen: Die Möglichkeit, Nutzer:innen auf neue Themen und Bereiche hinzuweisen, dh. ihren Horizont zu erweitern, halte ich für die wichtigste Funktion eines öffentlich-rechtlichen Empfehlungsalgorithmus.

  8. „Wir schreiben unsere Algorithmen selbst und nutzen nur quelloffen verfügbare Bibliotheken als Bausteine.“
    Wäre sehr erstebenswert und im Sinne der finanzierenden Steuerzahler (#Gemeinwohl), wenn das für alle im Öffentlich Rechtlichen Rundfunk verwendeten/produzierten Algorithmen/Software/Produkte gelten würde.

    siehe auch:
    „Open Source in der öffentlichen Verwaltung“
    https://www.youtube.com/watch?v=Zs6XCvufnl0 (04.02.2022)
    „Schleswig-Holstein hat Mitte letzten Jahres bekanntgegeben als erstes Bundesland, die komplette Landesverwaltung sukzessive auf Open Source Software umzustellen.“
    Der Hauptprojektleiter berichtet in dem Video dazu.

    siehe auch:
    Interview: „Open Source braucht öffentliche Finanzierung“
    https://netzpolitik.org/2021/interview-open-source-braucht-oeffentliche-finanzierung/ (15.02.2021)

    siehe auch:
    „Public Money Public Code: 31 Organisationen fordern freie Software in der Verwaltung“ und dort u.a.: „Die Organisationen gehen außerdem davon aus, dass mehr freie Software zu einem besseren Umgang mit Steuergeldern führen könnte.“
    https://www.golem.de/news/public-money-public-code-31-organisationen-fordern-freie-software-in-der-verwaltung-1709-130034.html
    Webseite: https://publiccode.eu/

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.