Sprachalgorithmen: Die Diskursmaschine

Der Entwickler Johannes Filter baut Open-Source-Software, um mit maschinellem Lernen den Bedeutungswandel von Worten zu ergründen. Sie soll die Grundlage für viele weitere Projekte bieten.

Es ist erstaunlich, wie wandelbar die Bedeutung mancher Worte ist. Nehmen wir „Krise“. Vor zehn Jahren war der Begriff allgegenwärtig, sein Sinnzusammenhang war damals eindeutig ökonomisch besetzt: Es ging um die Finanzkrise, die Wirtschaftskrise, die Eurokrise. Wenig später wandelte sich das Wort, es wurde zur Flüchtlingskrise. Seit diesem Jahr kennt Krise hingegen vor allem ein Beiwort, den Coronavirus.

Den oft flüchtigen Bedeutungskontext von Worten mit Daten belegen, das hat sich Johannes Filter zum Ziel gesetzt. Der Softwareentwickler und Open-Data-Aktivist hat über ein Jahr lang an seinem Projekt getüftelt, das die Beziehungen zwischen Worten empirisch belegbar machen soll.

Filter präsentierte das Projekt nun gegenüber netzpolitik.org erstmals der Öffentlichkeit.

13 Millionen Kommentare einer deutschen Nachrichtenseite speiste Filter in seine Datenbank ein, die Beiträge stammen aus einem Zeitraum von zehn Jahren. Eine von ihm entwickelte Open-Source-Software, PTF-Kommentare, wertet die Texte mit der Hilfe von maschinellem Lernen aus.

Wie Worte sich wandeln

Die Software spuckt für jeden Begriff ähnliche Begriffe aus und bettet sie in ihren zeitlichen Kontext ein. Das lässt die Bedeutungsverschiebung von Wörtern im Verlauf des vergangenen Jahrzehnts nachvollziehen.

Auf der Projektwebseite lässt sich die Software ausprobieren. Filter bietet außerdem die Word Embeddings zu den Kommentare, die er von Zeit Online gescraped hat, unter der freie Lizenz CC0 zum Download.

Das Projekt soll eine Ressource für alle schaffen, die sich mit automatisierter Analyse von Sprache beschäftigen wollen – ob es sich nun um Startups handelt oder Sprachwissenschafter:innen. Finanziert hat die Arbeit von Filter der Prototype Fund mit Mitteln des Bundesministeriums für Bildung und Forschung.

Ähnliche Verfahren zur Ermittlung sogenannter Word Embeddings existieren bereits, etwa Word2Vec von Google und fastText von Facebook. „Aber die Methoden orientieren sich an den Bedürfnissen großer Tech-Unternehmen, diese sind im Besitz sehr großer Datenmengen. Das ist nicht immer der Fall, wie hier“, sagt Filter.

Maschinelles Lernen wird immer öfter auch im Journalismus eingesetzt. Die Süddeutsche Zeitung veröffentlichte zuletzt etwa eine automatisierte Sprachanalyse von Wortprotokollen des Bundestags. Bereits seit längerem arbeiten einige Nachrichtenorganisationen außerdem an der automatisierten Erstellung von Texten, etwa für Erstmeldungen zu Sportergebnissen oder die Lokalberichterstattung.

Der studierte Informatiker Filter engagiert sich seit Jahren als Aktivist für Open Data und Informationsfreiheit, unter anderem arbeitet er bei FragdenStaat.de an zahlreichen Behördenanfragen mit. Seine nun vorgestellte Software und der Datensatz werde „die Grundlage für viele ähnliche Projekte“ werden, hofft der Entwickler.

Sprachalgorithmen: Die Diskursmaschine

Wie Worte sich wandeln

Sprachverarbeitende KI: Basismodelle von Google und Co öffnen Diskriminierung Tür und Tor

Offene Geodaten: Bayern geht gegen Open-Data-Aktivist:innen vor

Tatort Rechts: Neues Projekt sammelt rechte Gewalttaten auf interaktiver Deutschlandkarte

0 Ergänzungen