Dieser Artikel ist mehr als 15 Jahre alt.

Zum Nachbauen geeignet: Churnalism.com

Churnalism.com ist ein spannendes Tool aus England, was wir dringend auch mal in Deutschland bräuchten. Die Idee ist einfach erklärt: Per Crowdsourcing kann man journalistische Inhalte dahingehend überprüfen, wieviel davon aus PR-Texten abgeschrieben wurde. Das funktioniert so: The site compresses all articles published on national newspaper websites, on BBC news, and Sky news online, into a series of numbers based on 15 character strings (using a hash function) and then stores them in a fast access database.

Markus Beckedahl

08. März 2011, 12:15 Uhr

The site compresses all articles published on national newspaper websites, on BBC news, and Sky news online, into a series of numbers based on 15 character strings (using a hash function) and then stores them in a fast access database. When someone pastes in some text and clicks ‚compare’, the churn engine compresses the text entered and then searches for similar compressions (or ‚common hashes’). If the engine finds any articles where the similarity is greater than 20%, then it suggests the article may be churn. Churnalism.com is powered off the back of the database of over three million compressed articles in journalisted.com.

In einem Textfeld kann man Pressemitteilungen von Unternehmen oder Institutionen eingeben und dann schauen, ob und in welchem Umfang Journalisten sich aus dieser Quelle bedient haben. Tolle Idee, wer baut das für Deutschland?

Also los, so schwer dürfte das nicht sein und der gesellschaftliche Mehrwert ist enorm. Falls jemand Lust und Zeit hat, sowas zu entwickeln, helfen wir gerne zu einem späteren Zeitpunkt mit der Finanzierung der Serverinfrastruktur. Daran soll es nicht scheitern.

Über die Autor:innen

Markus Beckedahl

Markus Beckedahl hat schon 2003 in der Ur-Form von netzpolitik.org gebloggt und hat zwischen 2004 bis 2022 die Plattform als Chefredakteur entwickelt. Seit 2024 ist er nicht mehr Teil der Redaktion und schreibt einen Newsletter auf digitalpolitik.de. Kontakt: Mail: markus (ett) netzpolitik.org, Presseanfragen: +49-177-7503541 Er ist auch auf Mastodon, Facebook, Twitter und Instagram zu finden.
Foto: Darja Preuss

Veröffentlicht

8. März 2011, 12:15 Uhr

Kategorie

Kultur

Schlagwörter

crowdsourcing, Deutschland, Digitalkultur, Journalismus, Medien, UK

Weiterlesen

Thema

Kultur

Thema

crowdsourcing

Thema

Deutschland

Ergänzungen

Wir freuen uns auf Deine Anmerkungen, Fragen, Korrekturen und inhaltlichen Ergänzungen zum Artikel. Bitte keine reinen Meinungsbeiträge. Unsere Regeln zur Veröffentlichung von Ergänzungen findest Du unter netzpolitik.org/kommentare. Deine E-Mail-Adresse wird nicht veröffentlicht.

20 Kommentare zu „Zum Nachbauen geeignet: Churnalism.com“

anon

,

8. März 2011

Erinnert an die Deutsche Bahn.

Vielleicht schmeißen sich die Abgeordneten weiße und rote Tischdecken um den Hals und diskutieren mal. So wie in der guten alten Zeit. *duck
anon

,

8. März 2011

okay, das war der falsche Beitrag.
Ich sollte den Browser eigentlich besser bedienen können.
Lauscher

,

8. März 2011

Ohne jetzt genauer hingeschaut zu haben: Muss man das überhaupt nachbauen? Könnte man nicht einfach einen de-Ableger starten? Die Engine müsste man doch übernehmen können und durch die einschlägigen Ticker wäre die deutsche Datenbank auch schnell gefüllt.
Synchron

,

8. März 2011

@Lauscher sehe ich auch so.
Vor allem müsste man der Seite mal ne sprechendere Startseite verpassen…Wenn man nicht weiß worum es geht erschließt es sich einem nicht sofort.…
Sebastian

,

8. März 2011

Das ganze bitte auch noch für Gesetzestexte im Vergleich mit Lobbyistenoutput.
Lukas

,

8. März 2011

Das hat bestimmt auch Potenzial um Dissertationen auf Plagiate hin zu überprüfen…
Armin

,

8. März 2011

Daß das Ding von einem Team aus ca 5–6 Leuten (einschliesslich „advisors“) gebaut wurde ist Euch aber schon aufgefallen? Glaube nicht ein Einzelkämpfer kann das mal so auf die Schnelle nachbauen.
1. markus
  
  ,
  
  8. März 2011
  
  @Armin: Danke, lesen kann ich und es ist mir auch aufgefallen, dass dort mehrere Personen erwähnt sind. Ich kenne aber auch viele talentierte Leser und Leserinnen, die einen Prototyp auch erstmal alleine hinbekommen könnten oder mit Freunden zusammen im Team.
Synchron

,

8. März 2011

Warum das Rad neu erfinden?
Die 5–6 Leute könnten unter guten zureden :) ja eine „offene“ Version zu verfügung stellen die dann „nur“ auf die hiesigen Verhältnisse angepasst werden muss. Eine komplette Neuentwicklung muss hier ja gar nicht sein. Das kommt allerdings sehr auf die kooperationsbereitschaft der churnalism-Macher an
Social Media und neue Internet-Tools - GamesAktuell.de-Foren

,

8. März 2011

[…] […]
SaäBäm

,

8. März 2011

Das ganze bitte auch noch für Gesetzestexte im Vergleich mit Lobbyistenoutput.
Autolykos

,

9. März 2011

Die Textabschnitte zu hashen halte ich für eine denkbar ungeeignete Lösung, denn minimale Veränderungen (versetztes Komma, ausgebügelter Rechtschreibfehler, andere Sorte Anführungszeichen oder Bindestriche, …) bewirken einen radikal anderen Hash. Das ist gut für Prüfsummen, aber schlecht für Ähnlichkeitsvergleiche. Ein schlechter/kaputter „Hash“, bei dem ähnliche Texte nahe beieinander liegende Werte erzeugen hätte vermutlich bessere Ergebnisse. Dann sucht man nicht nur nach exakten Matches, sondern nach allen Werten in einem bestimmten Bereich, und vergleicht dann die Ähnlichkeit der fraglichen Texte direkt (z.B. mit Levenshtein-Distance).
1. markus
  
  ,
  
  9. März 2011
  
  @Autolykos: Meine Vermutung war, dass man den Weg über Hashes vll aus Urheberrechtsgründen geht. Aber falls das jemand nachbauebn will: Besser Methoden gibts sicher.
Autolykos

,

9. März 2011

Nachtrag: So ein „schlechter“ Hash könnte z.B. so funktionieren, daß man für jedes Wort die nächste Entsprechung in einer Wortliste sucht (wie die Rechtschreibkorrektur in Office – wenn nichts gefunden wird, ignorieren), die Positionen in der (alphabetischen oder besser noch nach Häufigkeit sortierten) Liste aufaddiert und am Ende auf die gewünschte Länge abschneidet. Sollte auch nicht wesentlich länger dauern als ein „guter“ Hash, aber dafür findet man auch Artikel in denen Kleinigkeiten abgeändert wurden.
Synchron

,

9. März 2011

Das mit den Hashes würde dann funktionieren, wenn man sie nur zur „Ersteinordnung“ benutzt und anschließend vor und hinter einem exakt gefundenen Hash weiter vergleicht. Die Wahrscheinlichkeit, dass in jedem 15 Zeichenabschnitt eine Änderung ist ist eher unwahrscheinlich. Möglicherweise reicht es dann aber Hashes über ganze Sätze zu machen.
Ich bin kein Mathematiker aber ich glaube, dass man damit sehr wahrscheilich übereinstimmungen lokalisieren kann…
Lesenswerte Artikel 9. März 2011

,

9. März 2011

[…] Zum Nachbauen geeignet: Churnalism.com „Per Crowdsourcing kann man journalistische Inhalte dahingehend überprüfen, wieviel davon aus PR-Texten abgeschrieben wurde.“ […]
lem

,

9. März 2011

Der Gedanke es nachzubauen entsteht natürlich nicht von irgendwoher.
Mein erster Gedanke wäre tatsächlich auch eine Kooperation mit den Churnalism-Leuten.
So lässt sich aber weniger Geld verdienen.
lem

,

9. März 2011

Eine Kooperation ist hierbei das einzig wahre, es sei denn man hat weitergehende Ziele.
Die Ziele der Churnalism-Macher klingen jedenfalls ehrenvoll und ihre Finanzierung lässt keine unmittelbaren Abhängigkeiten erkennen.
Teilhaber einer solchen Plattform könnten aber auch finanzielle Ziele haben.
Man lebt schliesslich nicht von Luft und Bloggerliebe allein.
Alcar

,

12. März 2011

Das erstellen eines Hashes hat Performance Vorteile. es ist viele weniger aufwändig einen Hash zu vergleichen der ein komplexes Konstrukt (wie z.b einen Satz) eindeutig repräsentiert als ein komplexen Satz Wort für Wort in eine Datenbank erst zu suchen und dann zu vergleichen.

bei Interesse kann ich das hier empfehlen:

http://www.strchr.com/hash_functions
http://de.w3support.net/index.php?db=so&id=384811

@Autolykos
Beim erstellen des Hashes konnte man einfach folgende Zeichen ignorieren:
!,;?._-’ “&
Das Problem mit den Rechtschreibfehlern bestehe natürlich immer noch.

Vielleicht könnte ich meine Kommilitonen fragen was die für Ideen hätten um diese Probleme zu lösen.
Synchron

,

14. März 2011

bei einfachen Änderungen könnte es helfen die Buchstaben phonetisch zu verschlüsseln. Dadurch könnten ss -> ß oder „Meier“ zu „Meyer“ erfasst werden. Wirkliche Rechtschreibfehler werden damit allerdings nicht gefunden, wenn sie anders klingen…

Dieser Artikel ist älter als 15 Jahre, daher sind die Ergänzungen geschlossen.

Deine Spende für digitale Freiheitsrechte

Über die Autor:innen

Weiterlesen

Kultur

crowdsourcing

Deutschland

Ergänzungen

20 Kommentare zu „Zum Nachbauen geeignet: Churnalism.com“

Folge uns

Mehr lesen

Mehr erfahren

Unterstützen