Der 31. Chaos Communication Congress geht in den zweiten Tag. Das sind meine Empfehlungen für heute.
12:45: Saal 2: Tell no-one
14:00, Saal 1: Security Analysis of Estonia’s Internet Voting System
16:00, Saal 2: Das Transparenzportal Hamburg
16:00, Saal 6: GIFs: Tod eines Mediums. Und sein Leben nach dem Tod.
16:45, Saal 2: Krypto für die Zukunft
16:45, Saal G: Long war tactics
17:30, Saal 1: Information Control and Strategic Violence
18:15, Saal 1: Vor Windows 8 wird gewarnt
19:00, Saal 1: »Hard Drive Punch«
20:30, Saal 1: Reconstructing narratives
21:45, Saal 6: net neutrality: days of future past?
23:00, Saal2: Doing right by sources, done right
Und auch wieder übersehe ich den einen oder anderen spannenden Talk aus netzpolitischer Sicht, aber man kann sich ja theoretisch auch nur einen Slot pro Stunde live anschauen. Alle Talks werden in diversen Formaten gestreamt und stehen anschließend zum Download bereit.
Ich finde dem Vortrag „Why is GPG „damn near unusable“?“ gleich um halb 12 auch enorm wichtig.
Und ich füge dan Empfehlungen noch hinzu:
00:15 Fnord News Show
Also manche Talks (ja genau, Teufelsberg, das berühmte geheime Ohr Berlins) haben wirklich Unterhaltungswert. Britischer Humor, da können wir Deutschen nicht mithalten – außer vielleicht bei der Küche. Wußte eigentlich jemand, daß „onion rings“ – zu Deutsch „Zwiebel ruft an“ – sehr lecker sind. Oder doch lieber „gefühlter Hühnersack“ oder „Fisches Filet des zur Vollkommenheit versengten Heilbutts“? (gefunden von deutschen Touristen im Ausland und gesammelt von Axel Hacke in dem Hörbuch „Oberst von Huhn bittet zu Tisch – Speisedeutsch für Anfänger). Humor ist, wenn man trotzdem lacht. Ein paar gute Fragen und Rückmeldungen erhöhen den Wert des Talks noch um ein Vielfaches.
Die Spiegel-Dokumente, die Jacob und Laura am Abend des 2. Tages vorstellten… sie sind leider nicht sehr „zugaenglich“.
Ein Sehbehinderter kann sie sich nicht von einem Screenreader vorlesen lassen. Ein Blogger (oder auch ein engagierter Journalist, falls es sowas anderswo auch noch gibt), kann darin nicht wirklich recherchieren.
Das sind PDFs, die aus Seiten-Bildern bestehen, welche sie mit 150 DPI bis 200 DPI gescannt haben. Zudem waren viele dieser Dokumente — insbesondere die Praesentationen — im Originalzustand ganz offensichtlich gar keine PDFs, sondern vermutlich Powerpoints, Words und Excels.
Bei der PDF-Konvertierung hat es dann viele Ueberschriften, aber auch andere Textstellen etwas in Mitleidenschaft gezogen, vermutlich weil die Ursprungs-Schriftarten nicht zur Verfuegung standen und weil man mit einem kostenguenstigen (aber nicht ganz potenten) Programm nach PDF konvertiert hat.
Es fehlt eine Text-Erkennung. Man kann die Dinger nicht durchsuchen oder ver-schlagworten. Der SPIEGEL hat offenbar kein Interesse daran. Alle PDF-Metadaten sind ohnehin entfernt. Die Seiten sind aus Scans hervorgegangen, die lediglich eine Aufloesung von 150 DPI bis 200 DPI aufweisen.
Auf diese Weise kann man nicht wirklich darin recherchieren. Man kann nur sehr schwierig Querverbindungen herstellen.
Waere es da nicht eine gute Idee, die komplette Sammlung aller (z.T. ja auch noch unkenntlich gemachten) PDFs, die im Zusammenhang mit Snowden bisher das Licht der Oeffentlichkeit erblickten, mal irgendwo zentral zu sammeln, und sie alle einer anstaendigen OCR zuzufuehren ??
Daraus koennte man dann auch eine Art Index erzeugen. Mit Links von Stich- und Schlagworten zu den entsprechenden Dokumenten (mit genauer Seiten-Angabe). Auch eine HTML-Version waere fuer vertiefende Recherchen nicht schlecht.
Wer macht mit ?
Waere Netzpolitik bereit, die per OCR bearbeiteten Dateien zu hosten ?