RegionalspracheFalsches Schottisch in Wikipedia-Einträgen

Ein einziger Nutzer hat große Teile der schottischen Wikipedia-Artikel verfasst, obwohl er die Sprache offenbar gar nicht beherrscht. Was zunächst nach einer ulkigen Anekdote klingt, könnte zu einem Problem für Algorithmen und Spracherkennungssoftware werden.

Die schottische Flagge weht im Wind
Ähnlich wie hier die schottische Flagge im Wind zerknautscht wird, zerknautschte ein Wikipedia-Autor die schottische Sprache. – Vereinfachte Pixabay Lizenz Bernhard_Staerck

Wikipedia als Quelle zu hinterfragen, lernen Schüler:innen spätestens beim ersten Referat. Lehrer:innen weisen gerne darauf hin, dass hier ja jeder mitschreiben und mitbearbeiten könnte und man alle Informationen nochmal prüfen müsse.

Dass aber nicht die Inhalte eines Eintrags angezweifelt werden, sondern die Sprache, in der die Einträge verfasst sind, ist neu. Einem Reddit-User ist aufgefallen, dass ein einziger Autor große Teile der schottischen Wikipedia verfasst hat. Und das anscheinend, ohne die Sprache überhaupt zu beherrschen.

Die Bezeichnung Schottisch oder „Scots“ fasst alle regionalen Dialekte zusammen, die in Schottland – neben Englisch und Gälisch – verbreitet sind. Scots ist im Rahmen der Europäischen Charta der Regional- und Minderheitensprachen [PDF] anerkannt. Die Charta soll die Sprachen kultureller Minderheiten vor dem Aussterben bewahren.

Kaum Unterschied zum Englischen

In seinem Post auf reddit schreibt der User, dass die schottische Wikipedia so legendär schlecht sei, dass Linguist:innen sie in Debatten als Argument heranziehen würden, warum Scots nicht als eigene Sprache anzusehen sei.

Tatsächlich sind viele Artikel in der schottischen Übersetzung für englischsprachige Leser:innen erstaunlich gut zu verstehen. Das liege daran, dass der Wikipedia-Autor oft wohl einfach die englischen Artikel als Grundlage genommen und einzelne Wörter anhand eines Wörterbuches ins Schottische übersetzt habe, so der Reddit-User.

Dieser Verdacht erhärtet sich beim Blick in einen Beispiel-Eintrag. Der englische und der schottische Wikipedia-Eintrag zur Fußballweltmeisterschaft der Männer unterscheiden sich im ersten Abschnitt nur geringfügig:

The FIFA World Cup, eften simply the Warld Cup, is an internaitional association fitbaa competeetion contestit bi the senior men’s naitional teams o the members o Fédération Internationale de Football Association (FIFA), the sport’s global govrening body. The championship haes been awairdit every fower years syne the inaugural tournament in 1930, except in 1942 an 1946 when it wis nae held acause o the Seicont Warld War. The current champions are France, who wan the 2018 tournament in Russia. [Schottischer Wikipedia-Eintrag]

The FIFA World Cup, often simply called the World Cup, is an international association football competition contested by the senior men’s national teams of the members of the Fédération Internationale de Football Association (FIFA), the sport’s global governing body. The championship has been awarded every four years since the inaugural tournament in 1930, except in 1942 and 1946 when it was not held because of the Second World War. The current champion is France, which won its second title at the 2018 tournament in Russia. [Englischer Wikipedia-Eintrag]

Wissen über schottische Sprache verzerrt

Einzelne Wörter sind übersetzt, doch der Satzbau und die Grammatik stimmen eins zu eins überein. In den Augen des Reddit-Users zeigt die mangelnde Berücksichtigung von Besonderheiten des Scots und die Verwendung von Worten im falschen Zusammenhang, dass es sich nicht um einen Kenner der Sprache handelt und er die Einträge wohl einfach Wort für Wort mit einem Wörterbuch übersetzt habe.

Der Reddit-User beklagt, dass Autor:innen, die die Sprache tatsächlich sprechen, mit ihren Einträgen in der Masse der falschen Einträge untergingen oder sogar so verändert werden könnten, dass ihre Sprache eher dem falschen Scots entspräche. Das öffentliche Wissen über die schottische Sprache würde also durch falsche Wikipedia-Einträge verzerrt werden.

Der Wikipedia-Autor hat in Folge des Reddit-Posts auf seinem Profil erklärt, man könne gerne alle seine Artikel und Bearbeitungen löschen. Er habe eingesehen, dass er Schaden angerichtet habe und berichtet von Drohungen und Belästigungen in sozialen Netzwerken. Der Reddit-User, der das Problem aufgedeckt hatte, rief deshalb dazu auf, den Wikipedianer in Ruhe zu lassen.

Wikipedias große Macht

Die Debatte um die Macht von Wikipedia ist nicht neu. Bislang drehte sie sich jedoch meist um das Problem der Nachwuchsgewinnung und die mangelhafte Repräsentation von Frauen . Schlagzeilen machte beispielsweise der Fall von Donna Strickland. Ein Moderator verweigerte der Nobelpreisträgerin für Physik nur Monate vor der Preisverleihung einen eigenen Wikipedia-Eintrag mit Verweis auf ihre mangelnde Relevanz. Das liege vor allem auch an der geringen Diversität in der Autorenschaft, merken Kritiker:innen immer wieder an.

Im aktuellen Fall weist eine Wissenschaftlerin in einem Twitter-Thread auf die Probleme hin, die falsche Texte für das Trainieren von Algorithmen haben können:

In diesem Fenster soll ein Twitter-Post wiedergeben werden. Hierbei fließen personenbezogene Daten von Dir an Twitter. Aus technischen Gründen muss zum Beispiel Deine IP-Adresse übermittelt werden. Twitter nutzt die Möglichkeit jedoch auch, um Dein Nutzungsverhalten mithilfe von Cookies oder anderen Tracking-Technologien zu Marktforschungs- und Marketingzwecken zu analysieren.

Wir verhindern mit dem WordPress-Plugin „Embed Privacy“ einen Abfluss deiner Daten an Twitter so lange, bis Du aktiv auf diesen Hinweis klickst. Technisch gesehen wird der Inhalt erst nach dem Klick eingebunden. Twitter betrachtet Deinen Klick als Einwilligung in die Nutzung deiner Daten. Weitere Informationen stellt Twitter hoffentlich in der Datenschutzerklärung bereit.

Zur Datenschutzerklärung von Twitter

Zur Datenschutzerklärung von netzpolitik.org

Erfahre mehr in der Datenschutzerklärung von X.

Es sei nicht unüblich, dass Machine-Learning-Systeme ihre Spracherkennung für Regional- oder Minderheitensprachen ausschließlich mit Wikipedia-Einträgen trainieren. Ist die Sprache dort falsch repräsentiert, könnte sich das in die automatisierten Systeme zur Sprachverarbeitung fortsetzen. Sie könnten für diese Sprache nicht richtig funktionieren.

Gerade wenn – wie bei Scots – nicht mehr allzu viele Menschen diese Sprache sprechen, wird es immer schwieriger, die Fehler zu erkennen und zu korrigieren. Scots würde sich dem Englischen immer mehr annähern und könnte seine Eigenständigkeit verlieren.

Für die Bewahrung seltener Sprachen könnte die digitale Repräsentation eine große Rolle spielen. Wenn diese Sprachen dann aber im oftmals größten vorliegenden Datensatz, der Wikipedia, unvollständig oder schlicht falsch vorliegen, verzerren diese offen zugänglichen Informationen nicht nur das Wissen über die seltene Sprache, sondern womöglich auch die Sprache selbst, wenn Spracherkennungssoftware mit den fehlerhaften Daten trainiert.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

8 Ergänzungen

  1. „könnte zu einem Problem für Algorithmen und Spracherkennungssoftware werden“

    Vielleicht, weil die Algorithmen alle von dem selben Schotten implementiert werden?

  2. Bitte nicht die Ente über Donna Strickland immer wieder neu verbreiten! Der Artikel (in der englischen WP) über sie wurde nur 2014 wegen Urheberrechtsverletzungen gelöscht. Eine negative Entscheidung zur Relevanz gab es nie. Es gibt auch keine „Moderatoren“.

    Beim Guardian hatte man nicht verstanden, dass nur jemand einen Entwurf für den Artikel geschrieben hatte, ‚irgendjemand‘ hat dann seine Ansicht zur eher mangelhaften Qualität des Entwurfs kund getan und dann hat niemand mehr etwas daran gemacht, ehe Strickland bei der Preisverleihung bekannter wurde.

    1. Sie geben hier unfreiwillig ein Beispiel dafür, das in Wikipedia formale Kriterien oder schlicht Bürokratie eine höhere Priorität als die Qualität haben. Wenn ein Artikel wegen (anscheinend) Uhrheberrechtsproblemen gelöscht wird, wäre eine Anzeige von „Artikel existierte, wurde aber gelöscht, wegen X“ besser als „kein Treffer“.

      1. Das wird auch genau so angezeigt, wenn man einen solchen Artikel neu zu erstellen versucht. Dem, der das nicht versucht, nützt die Information auch nichts.

        1. Vielleicht verstehe ich das falsch, bislang dachte ich die wikipedia ist zunächst ein Nachschlagewerk – zumindest verstehen sehr viele Leute es als solche.

          Wenn ich als Nachschlagender einen Suchbegriff X eingebe, bekomme ich:

          Der Artikel „X“ existiert in der deutschsprachigen Wikipedia nicht. Du kannst den Artikel erstellen (Quelltext-Editor, Anleitung).

          Soweit ich sehen kann, gibt’s nur die Information, das der Artikel nicht existiert. Um zu sehen, das der Artikel bereits früher gelöscht wurde, muss ich much dazu entschließen ihn zu erstellen.
          Dort dann: „Achtung: Du erstellst eine Seite, die bereits früher gelöscht oder verschoben wurde.“
          und einen Verweis auf eine Löschdiskussion:

          05:93, 31. Feb. 2021 Nob9lli9a Diskussion Beiträge löschte die Seite X (Entscheidung nach Löschdiskussion (siehe → Links))

    1. Bislang kannte ich den Kanal „Langfocus“ nicht, von daher bin ich auch weiterhin noch verwirrt ob der Selbstverständlichkeit, den Namen ohne weitere Zeichen der Erklärung zu nennen. Knapp 1 Millionen Abonnet:innen ist ja mittlerweile nicht mehr die Spitze des Berges. Das Video schaue ich mir aber an, danke :-)

  3. Wegen der besseren Differenzierbarkeit nennt man diese Sprache eigentlich Scots und nicht Schottisch. Schottisch-Gälisch ist auch eine schottische Sprache. Steht auch so in der (vielgeschmähten) Wikipedia bei den schottischen Amtssprachen: Englisch, Scots, Schottisch-Gälisch.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.