Spaß mit dem Informationsfreiheitsgesetz – heute: Plenarprotokolle des Bundestages ab 1949

ifg

Im Frühjahr diesen Jahres veröffentlichte der Bundestag erfreulicherweise ein Archiv aller Plenarprotokolle des Parlaments. Schriftstücke ab 1949 bis 2005 finden sich in einer durchsuchbaren Datenbank. Alte Protokolle waren eingescannt und per Schrifterkennung ausgelesen worden und so wichtige politische Zeitdokumente zugänglicher gemacht.

Da aber wie so oft gut gemeint das Gegenteil von gut ist, und sich auf Seiten von Behörden offenbar selten jemand Gedanken über „Usability“, also Anwenderfreundlichkeit macht, lässt die Datenbank einiges zu wünschen übrig. Von der Idee, eine Beta zu machen und Nutzer um Feedback zu bitten, davon hat man wahrscheinlich in der Bundestagsverwaltung noch nie gehört.

So kann man zwar nach Stichwörtern suchen und erhält dann Textausschnitte zurück. Aber statt den kompletten Text anzuliefern wird dann, will man beispielsweise die gesamte Debatte lesen, auf eine pdf-Datei verwiesen. Absurd: Erst werden per Scannern und Texterkennung die Protokolle digitalisiert und befreit, um sie dann wieder in ein sehr restriktives Format zu gießen. Von Merklisten und Download-Körben, Annotationen, Einbettoptionen, Social Media-Anbindung und anderen Funktionalität braucht man gar nicht erst zu reden.

Ende Februar richtete ich eine kurze Mail an die Bundestagsverwaltung, in der ich bat, mir doch bitte die gesamten Protokolle im Textformat zugänglich zu machen. Der Nutzen der Informationen in einem freien Format, als Open Data, für Projekte wie offenesparlament.de oder journalistische Recherche liegt auf der Hand.

Nach fast zwei Monaten erhielt ich dann eine Antwort: Das wäre derzeit nicht möglich. Und es würde noch geprüft, „ob und unter welchen Bedingungen die Dateien zugänglich gemacht werden“ könnten.

Technisch sollte das eigentlich kein Ding der Unmöglichkeit sein: Für einen Mitarbeiter des beauftragen IT-Dienstleisters dürfte das Pi mal Daumen zehn Minuten Arbeit bedeuten: Datenbank-Dump gleich als txt-Datei(en) erstellen; den dann in ein zip-Datei packen; Upload auf einen Server; Bereitstellen einer URL zur zip-Datei. Die tatsächlichen Kosten – also nicht die Mondpreise, die IT-Dienstleiser bei den oft ahnungslosen öffentlichen Einrichtungen gerne in Rechnung stellen – dürften sich auf weit unter 100 Euro belaufen.

Und rechtlich dürfte eigentlich auch nichts dagegen sprechen. Amtliche Werke unterliegen nicht dem Urheberrecht.

Also stellte ich eine Anfrage nach dem Informationsfreiheitsgesetz (IFG) via fragdenstaat.de

Doch wie Gesetze nunmal sind, sind sie nicht selten windelweich formuliert. So wurde meine Anfrage nach knapp einem Monat fristgerecht abgelehnt. Denn in §9 Absatz 3 des seit 2006 gültigen IFG heißt es:

Der Antrag kann abgelehnt werden, wenn der Antragsteller bereits über die begehrten Informationen verfügt oder sich diese in zumutbarer Weise aus allgemein zugänglichen Quellen beschaffen kann.

Immerhin, so wird mir in dem Schrieb weiter mitgeteilt, beabsichtige der Bundestag zu prüfen, „ob Drucksachen oder Plenarprotokolle künftig auch in anderen Dateiformaten zur Verfügung gestellt werden können.“ Wenn die Beantwortung einer Mail schon zwei Monate dauern, dürfte das wohl ein paar Jahre dauern, bis das „geprüft“ wurde. Dabei könnte sich das der Bundestags sparen: Die Prüfung dürfte dann nämlich ergeben, dass das bereits passiert: Aktuelle Plenarprotokolle werden von der Bundestagsverwaltung als txt-Datei veröffentlicht. Und es gibt eine nicht öffentlich dokumentierte XML-Schnittstelle – hier zum Beispiele alle Mitglieder des Bundestages.

Aber um auf die IFG-Anfrage zurückzukommen: Ich halte es nicht für „zumutbar“ händisch alle pdf – viele tausend Stück – herunterzuladen. Auch heißt es im Ablehunungsbescheid, dass „die begehrten Dokumente auch nicht auf andere Weise, als über die genannte Datenbank“ zusammengestellt werden könnten. Wie oben schon beschrieben, halte ich das für eine von wenig technischem Sachverstand geprägte Behauptung: Der Arbeitsaufwand dürfte sehr überschaubar sein.

Jedenfalls habe ich jetzt um Vermittlung durch den „Bundesbeauftragter für den Datenschutz und die Informationsfreiheit“ gebeten.

So oder so ist wieder klar geworden: Das IFG gehört reformiert oder noch besser durch ein nationales Transparenzgesetz ersetzt. Glasklar muss dort der Anspruch auf Open Data hinein. Also das Informationen selbstverständlich in freien Formaten, wo möglich strukturiert (z.B. als csv), herausgegeben gehören. Von selber. Die Entscheidung, was als „zumutbar“ gelten kann, sollte nicht der Willkür von Verwaltungsmitarbeitern unterliegen. Sondern ggf. von einer  Clearingstelle entschieden werden. Deren Zusammensetzung auf keinen Fall von Parteien noch Verwaltungen geprägt werden darf.

16 Ergänzungen

  1. Wieso denn manuell herunterladen? sowas laesst sich doch einfach scripten, mit scrapy z.B.
    Fragt sich nur was die bundestag.de AGB so zu screen scraping zu sagen hat.

  2. Nun macht mal halblang.
    „Ich halte es nicht für „zumutbar“ händisch alle pdf – viele tausend Stück – herunterzuladen.“ das macht man ja auch mit einem Skript. Außerdem: Wenn man ja nicht einmal die Daten herunterladen kann, wie sollen die denn eigentlich verarbeitet werden? Oder sollen die Daten der Anfrage unmittelbar in die „runde Ablage“ wandern?
    PDF mit gescanntem Bild und erkanntem Text ist doch das optimalste Austaschformat. Es lässt sich einfachst programmatisch in alles Erwünschte wandeln.

  3. Hi,

    irgendwie echt Blauäugig. Hast du jemals beruflich mit Behörden zusammen gearbeitet? Für alles was in einer Behörde passiert, gibt es Genehmigungsprozesse. Mal eben nen Datenbankdump zur Verfügung stellen ist echt niedlich. Erstmal wird der Bedarf erhoben. Da die Sachbearbeiter aus dem Fachbereich kommen, sind das keine IT Experten. Es muss dann geklärt werden, wie viele Leute das Zeug als Textdateien haben wollen, oder ob andere Formate eher /auch angefragt werden. Anforderungsmanagement. Kennst du ja sicherlich. Dann muss es jemanden geben der das absegnet. Wenn jede Bebörde sofort alles tun würde, was sinn macht, müssten wir in einem Jahr auch zu Griechenland unter den Rettungsschirm. Einmal beantragt und bewilligt, müssen die Anforderungen an den IT Dienstleister klar definiert werden. Alles muss dokumentiert werden, die Infrastruktur benachrichtigt, ggf. Subdomains bei der IT beantragt werden. Der Webspace muss in die Backups aufgenommen werden und der Prozess ergänzt werden, sodass neue Sachen auch gleich als TXT mit erstellt werden.

    Mal eine Frage: Warum zur Hölle benötigst du alle Protokolle von 1949 bis 2005 auf einen Schlag? Das ist die Frage, die sich mir eher stellt als die, warum die Behörde statt PDF nicht auch XML, mit RDF, DOCX und natürlich unbedingt auch in LaTeX angeboten werden.

    Finde deine Aufregung da auf den ersten Blick etwas künstlich.

    Viele Grüße aus Hamburg,
    Boris

    1. Hm. „Das ist halt so“ finde ich immer ein recht schwaches Argument. Ich habe in den letzten Jahren mit relativ viel Verwaltungen zu tun gehabt, dass der Grad an Verständnis für die Haltung, sich nicht verändern zu wollen, sinkt. Weil entlang politischer/gesetzlicher Vorgaben haben die verschiedenen Verwaltungen bzw. die Mitarbeiter/innen, aus denen sie bestehen, durchaus Möglichkeiten ihre Organisationskultur und das Auftreten nach außen selbst zu bestimmen. Nimm als positives Beispiel die Statistischen Ämter, denen es möglich war nach informeller Nachfrage trotz Bedenken, die Ergebnisse der Daten des Zensus 2011 in einem offenen Format zur Verfügung zu stellen.

      Die Frage, wofür ich die Dinger brauche habe ich zumindest angedeutet: Für Anwendung wie offenesparlament.de, Abgeordnetenwatch und Co sind solche Archive nützlich. Und dass mir die Recherchemöglichkeiten, die derzeit angeboten werden, mir nicht ausreichen, habe ich ebenfalls skizziert. Grundsätzlich halte ich die Frage aber für falsch. Was wir, die Sourveräne mit unseren Steuergelder finanziert haben, steht uns zu. Dank digitaler Technologie ist eine Distribution recht einfach zu gewährleisten. Was ich oder andere mit den Daten machen wollen, geht prinzipiell erstmal niemanden etwas an.

      1. Ich finde schon, dass man einen triftigen Grund haben sollte. In großen Organisationen – und der Staat ist eine ziemlich große – ist der Balanceakt zwischen geordneten Prozessen und effektivem, pragmatischem Handeln nicht so einfach. Andererseits stimme ich zu, dass die öffentliche Verwaltung nicht gerade ein Beispiel für pragmatisches Handeln ist.

        Aber dennoch: Zu den Mondpreisen und Kosten weit unter 100 Euro:

        # Erstmal ruft dich jemand von der Fachabteilung an, erklärt dir auf Amtschinesisch, was er will und fragt ob das so Sinn macht oder ob er da was technisches Übersieht. Du erklärst wie es technisch läuft, erklärst die Möglichkeiten und welche aus deiner Sicht Sinn machen.

        # Die klären das nochmal hin und her stellen nochmal die ein oder andere Frage dazu und schon sind 45 Minuten am Telefon ins Land gegangen.

        # Daraufhin schreibst du ein Angebot oder einen Change Request in dem du die Art der Lösung genau spezifizierst. Schreibst mit den Infrastruktur-Leuten, wo das unter welcher URL auf welchem Space abgelegt werden kann.

        # Dann trägst du die Änderung in die Betriebshandbücher ein, dass die TXT Files mit gesichert werden sollen und schreibst auf, wie der Datenbank Dump erzeugt wird, damit der bei der Digitalisierung zukünftig mit erstellt wird.

        # Dann erzeugst du den Dump, legst ihn auf nem Testlink ab, mailst, dass es fertig ist und wie man sich das ansehen kann.

        # Dann kommt das OK und du verschiebst das File in die Produktion.

        Wenn es gut läuft, bist du dann nach 5 Tagen (der Sachbearbeiter hat ja auch noch andere Aufgaben, muss das Intern klären und sich Freigaben holen) mit dem Thema durch und hast so etwa 5 Stunden investiert.

        Wenn wir jetzt mit „weit unter 100 Euro“ mal gutmütig 90 Euro nehmen, kommen wir bei einem Bruttobetrag von 18 Euro pro Stunde für den Dienstleister an. Beim Netto für den IT Angestellten kommen wir dann in den Bereich des Lohndumpings und in die Mindestlohndebatte.

        Ich beharre hier so ausführlich drauf, weil solche Übertreibungen und weniger wichtigen Aufreger dem ernsten Anliegen der Netzpolitik die Glaubwürdigkeit nehmen. Und das können wir uns nicht leisten. Denn genau so geben wir weltfremden CSUlern die Bühne, und als „lautstarke Randgruppe“ fern jeder Realität hinzustellen.

  4. @apoc @PurpleRain @kujyht Ja, dass das mit Scrapen geht ist klar. Mir geht es bei dem Ding aber um die Haltung von steuerfinanzierten Einrichtungen. Die meiner Meinung nach ohne großen Aufwand das sinnvoller anbieten könnten. Die Debatte über Open Data etc. ist ja nicht mehr ganz taufrisch und auch auf Seiten der Verwaltungen werde da große Reden geschwungen. Die Praxis ist aber eher kläglich.

  5. Absurd: Erst werden per Scannern und Texterkennung die Protokolle digitalisiert und befreit, um sie dann wieder in ein sehr restriktives Format zu gießen.

    Absurd: pdf als restriktives Format zu bezeichnen. Mehr als ISO geht eigentlich nicht.
    http://de.wikipedia.org/wiki/Portable_Document_Format#Normen_und_Standards

    Die Daten enthalten echte Texte und sind nicht wieder auf Bilder konvertiert worden oder so einen Blödsinn. Von daher kannst Du sie nehmen und sie selbst in ein anderes Format verwandeln. Dass sämtliche Daten in einer Datenbank vorliegen muss noch nicht mal der Fall sein. Wenn die Daten z. b. zur Verarbeitung aufgeteilt und je nach Bedarf über verschiedene Wege auf die Seite gewandert sind, dann könnte es durchaus sein, dass sie nicht in einer Datenbank also Dokumente zusammen geführt wurden und nur ein Stichwortindex eingefügt wurden. Das würde auch fürs Web Sinn ergeben.

    Die Suche kann auch auf Basis anderer Möglichkeiten funktionieren. Mal eben exportieren kann also evtl. wirklich schwieriger sein, als man sich das so vorstellt.

    1. Stimme zu. Ich bin ja über die Qualität der Texterkennung in den PDFs, besonders von Dokumenten aus den 50ern begeistert. Hab gerade mal Stichproben angesehen. Sag, du kennst dich offenbar sehr gut mit PDFs aus. Daher mal eine Frage, die du gern auch per Mail (Link in meinem Impressum) beantworten kannst, da sie das Thema hier verlässt: Ich weiß vom OCR bei Handschriften im Evernote, dass Files erzeugt werden, die alle möglichen Kombinationen von Buchstaben, die ein Wort darstellen könnte, abgelegt werden. Daraus bekommt man dann allerdings nur einen gut durchsuchbaren, aber keinen kopierbaren Text. Wird beim PDF nur die wahrscheinlichste Zeichenfolge gespeichert, oder werden auch diverse Möglichkeiten pro Wort gespeichert und beim kopieren nur die wahrscheinlichste ausgegeben?

      1. Also ich kenne das nur von Omnipage, was ich mal für einen Kunden einsetzen durfte, da lief es so ab, dass die Seiten gescannt wurden, dann lief OCR drüber und vor der Umwandlung als Text hat er bei jedem Wort, dass er nicht genau deuten konnte noch einmal nachgefragt.

        Also wenn da stand: „Dracksache“ hat er „Drucksache“ anhand des Wörterbuchs vorgeschlagen und man musste nur noch ok drücken. Ich denke mal, das wird hier ähnlich gewesen sein. Im ersten Schritt wurde alles gescannt, die Software hat die Wörter erkannt und wenn nicht, wurde nachgeholfen. Im Anschluss wurden dann alle Dokumente noch einmal händisch aufbereitet, korrigiert und formatiert.

        Keine OCR Software ist in der Lage Texte mit solchen Formatierungen (Zitate, Listen, Tabellen, Einrückungen, usw.) fehlerfrei anzulegen.

  6. Ich glaube auch, dass ich da widersprechen muss, das das schon in XML oder ähnlichem vorliegt. Da steht drin, dass das PDF von OmniPage 17 erstellt wurde. Das ist eine OCR.
    => Das ist der direkte output von der OCR. OmniPage hätte zwar noch einiges andere können, Das ist vermutlich aber nicht gemacht worden. Der Text für den Index ist vermutlich tatsächlich nur Text ohne Formatierung.
    Und PDF 1.4/A ist meines Wissens – Im Gegensatz zu manch anderem PDF – tatsächlich voll standardisiert und der Standard ist sogar kostenlos zugänglich. Das ist absichtlich zur Archivierung gedacht und lässt sich deswegen hervorragend in XML oder ähnliches umwandeln.
    Ich finde viel besser hätten sie’s nicht machen können.
    Wenn man’s anders haben will kann mich einfach alles runter laden und in was beliebiges konvertieren.

    Schade ist eigentlich nur das die Seite alles andere als barrierefrei ist und sich deswegen auch schlecht gegen scripten lässt.
    Schön währe z.B. wenn das zeug zur 5. Wahlperiode unter
    http://dipbt.bundestag.de/doc/btd/05 zu finden währe statt dass man die Seite über JS generiert, sodass man nicht drauf verlinken kann. Aber das ist ein anderes Thema. Ich dachte eigentlich mal das solche „kaputten“ Seiten mit dem Ende der Frames aussterben. Aber wenn das eine übel stirbt kommt grantiert von woanders was viel schlimmeres…
    Aber nichts, was man nicht hinbekommen würde.

  7. Ich finde es schon befremdlich, wie sich angebliche IT-Spezialisten darum bemühen, den offensichtlich kompliziertesten Weg als dennoch gangbar zu erklären. Fakt ist ja wohl, dass eine Verarbeitung und zur Verfügungstellung von Datenbankinformationen, insbesondere von Fließtext eben als PDF eben nicht optimal ist.
    PDF mag ein ISO-Standard sein – zur druckbaren Seitendarstellung! Ein Grafikformat wie PNG, GIF oder JPG ist möglicherweise auch ISO-Standard – dennoch käme niemand darauf, Texte in diesem Format auszuliefern – oder doch?

  8. Es ist die Frage, ob du ein maschinenlesbares oder menschenlesbares Format anbieten willst. Ersteres ist PDF klar das falsche Format, für zweiteres eine gute und verbreitete Wahl, zu der es sicherlich noch Alternativen gibt. TXT Files, wie oben gefordert, sind für beides gleichermaßen ungeeignet. Wollen wir den Punkt diskutieren?

    1. Mir ist nicht ganz klar, ob du dich schon mal mit der Idee von Open Data-befasst hast; deine Kommentare klingen eher so, als nicht. Hier z.B. ganz frisch die Open Data -Charta der G8, die auch Dtl. unterzeichnet hat: https://www.gov.uk/government/publications/open-data-charter (schau da mal in den Technical Annex).

      Es geht dabei in der Regel um Datensätze, also maschinenlesbare Formate. Wenn der Inhalt jedes pdf auch als txt-Datei veröffentlicht würde, könnte man mit diesem recht „rohen“ Daten alle möglichen sinnvollen Datensätze erzeugen. In JSON oder XML oder was auch immer.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.