Churnalism.com ist ein spannendes Tool aus England, was wir dringend auch mal in Deutschland bräuchten. Die Idee ist einfach erklärt: Per Crowdsourcing kann man journalistische Inhalte dahingehend überprüfen, wieviel davon aus PR-Texten abgeschrieben wurde. Das funktioniert so:
The site compresses all articles published on national newspaper websites, on BBC news, and Sky news online, into a series of numbers based on 15 character strings (using a hash function) and then stores them in a fast access database. When someone pastes in some text and clicks ‚compare‘, the churn engine compresses the text entered and then searches for similar compressions (or ‚common hashes‘). If the engine finds any articles where the similarity is greater than 20%, then it suggests the article may be churn. Churnalism.com is powered off the back of the database of over three million compressed articles in journalisted.com.
In einem Textfeld kann man Pressemitteilungen von Unternehmen oder Institutionen eingeben und dann schauen, ob und in welchem Umfang Journalisten sich aus dieser Quelle bedient haben. Tolle Idee, wer baut das für Deutschland?
Also los, so schwer dürfte das nicht sein und der gesellschaftliche Mehrwert ist enorm. Falls jemand Lust und Zeit hat, sowas zu entwickeln, helfen wir gerne zu einem späteren Zeitpunkt mit der Finanzierung der Serverinfrastruktur. Daran soll es nicht scheitern.
Erinnert an die Deutsche Bahn.
Vielleicht schmeißen sich die Abgeordneten weiße und rote Tischdecken um den Hals und diskutieren mal. So wie in der guten alten Zeit. *duck
okay, das war der falsche Beitrag.
Ich sollte den Browser eigentlich besser bedienen können.
Ohne jetzt genauer hingeschaut zu haben: Muss man das überhaupt nachbauen? Könnte man nicht einfach einen de-Ableger starten? Die Engine müsste man doch übernehmen können und durch die einschlägigen Ticker wäre die deutsche Datenbank auch schnell gefüllt.
@Lauscher sehe ich auch so.
Vor allem müsste man der Seite mal ne sprechendere Startseite verpassen…Wenn man nicht weiß worum es geht erschließt es sich einem nicht sofort….
Das ganze bitte auch noch für Gesetzestexte im Vergleich mit Lobbyistenoutput.
Das hat bestimmt auch Potenzial um Dissertationen auf Plagiate hin zu überprüfen…
Daß das Ding von einem Team aus ca 5-6 Leuten (einschliesslich „advisors“) gebaut wurde ist Euch aber schon aufgefallen? Glaube nicht ein Einzelkämpfer kann das mal so auf die Schnelle nachbauen.
@Armin: Danke, lesen kann ich und es ist mir auch aufgefallen, dass dort mehrere Personen erwähnt sind. Ich kenne aber auch viele talentierte Leser und Leserinnen, die einen Prototyp auch erstmal alleine hinbekommen könnten oder mit Freunden zusammen im Team.
Warum das Rad neu erfinden?
Die 5-6 Leute könnten unter guten zureden :) ja eine „offene“ Version zu verfügung stellen die dann „nur“ auf die hiesigen Verhältnisse angepasst werden muss. Eine komplette Neuentwicklung muss hier ja gar nicht sein. Das kommt allerdings sehr auf die kooperationsbereitschaft der churnalism-Macher an
Das ganze bitte auch noch für Gesetzestexte im Vergleich mit Lobbyistenoutput.
Die Textabschnitte zu hashen halte ich für eine denkbar ungeeignete Lösung, denn minimale Veränderungen (versetztes Komma, ausgebügelter Rechtschreibfehler, andere Sorte Anführungszeichen oder Bindestriche, …) bewirken einen radikal anderen Hash. Das ist gut für Prüfsummen, aber schlecht für Ähnlichkeitsvergleiche. Ein schlechter/kaputter „Hash“, bei dem ähnliche Texte nahe beieinander liegende Werte erzeugen hätte vermutlich bessere Ergebnisse. Dann sucht man nicht nur nach exakten Matches, sondern nach allen Werten in einem bestimmten Bereich, und vergleicht dann die Ähnlichkeit der fraglichen Texte direkt (z.B. mit Levenshtein-Distance).
@Autolykos: Meine Vermutung war, dass man den Weg über Hashes vll aus Urheberrechtsgründen geht. Aber falls das jemand nachbauebn will: Besser Methoden gibts sicher.
Nachtrag: So ein „schlechter“ Hash könnte z.B. so funktionieren, daß man für jedes Wort die nächste Entsprechung in einer Wortliste sucht (wie die Rechtschreibkorrektur in Office – wenn nichts gefunden wird, ignorieren), die Positionen in der (alphabetischen oder besser noch nach Häufigkeit sortierten) Liste aufaddiert und am Ende auf die gewünschte Länge abschneidet. Sollte auch nicht wesentlich länger dauern als ein „guter“ Hash, aber dafür findet man auch Artikel in denen Kleinigkeiten abgeändert wurden.
Das mit den Hashes würde dann funktionieren, wenn man sie nur zur „Ersteinordnung“ benutzt und anschließend vor und hinter einem exakt gefundenen Hash weiter vergleicht. Die Wahrscheinlichkeit, dass in jedem 15 Zeichenabschnitt eine Änderung ist ist eher unwahrscheinlich. Möglicherweise reicht es dann aber Hashes über ganze Sätze zu machen.
Ich bin kein Mathematiker aber ich glaube, dass man damit sehr wahrscheilich übereinstimmungen lokalisieren kann…
Der Gedanke es nachzubauen entsteht natürlich nicht von irgendwoher.
Mein erster Gedanke wäre tatsächlich auch eine Kooperation mit den Churnalism-Leuten.
So lässt sich aber weniger Geld verdienen.
Eine Kooperation ist hierbei das einzig wahre, es sei denn man hat weitergehende Ziele.
Die Ziele der Churnalism-Macher klingen jedenfalls ehrenvoll und ihre Finanzierung lässt keine unmittelbaren Abhängigkeiten erkennen.
Teilhaber einer solchen Plattform könnten aber auch finanzielle Ziele haben.
Man lebt schliesslich nicht von Luft und Bloggerliebe allein.
Das erstellen eines Hashes hat Performance Vorteile. es ist viele weniger aufwändig einen Hash zu vergleichen der ein komplexes Konstrukt (wie z.b einen Satz) eindeutig repräsentiert als ein komplexen Satz Wort für Wort in eine Datenbank erst zu suchen und dann zu vergleichen.
bei Interesse kann ich das hier empfehlen:
http://www.strchr.com/hash_functions
http://de.w3support.net/index.php?db=so&id=384811
@Autolykos
Beim erstellen des Hashes konnte man einfach folgende Zeichen ignorieren:
!,;?._-‚“&
Das Problem mit den Rechtschreibfehlern bestehe natürlich immer noch.
Vielleicht könnte ich meine Kommilitonen fragen was die für Ideen hätten um diese Probleme zu lösen.
bei einfachen Änderungen könnte es helfen die Buchstaben phonetisch zu verschlüsseln. Dadurch könnten ss -> ß oder „Meier“ zu „Meyer“ erfasst werden. Wirkliche Rechtschreibfehler werden damit allerdings nicht gefunden, wenn sie anders klingen…