Wer archiviert das Internet?

Vier spannende Gäste trafen sich zur Diskussion auf der diesjährigen „Zugang gestalten!“-Konferenz und diskutierten unter dem Titel „Wer archiviert das Internet?“ über Möglichkeiten und Wege, das Wissen des Internets für die Nachwelt zu bewahren.

Das Internet Archive auf Rädern CC-BY-NC 2.0 Robert Wise

Zu Streiten gab es an diesem Nachmittag nicht viel. Bei der Podiumsdiskussion „Wer archiviert das Internet“ waren sich Alexis Rossi von „Internet Archive“, Bert Wendland von der französischen Nationalbibliothek, die Generaldirektorin des Deutschen Nationalmuseums, Dr. Elisabeth Niggemann, Dr. Jan Schallaböck von iRights.law und Prof. Dr. Leonhard Dobusch einig: Es muss ein Archiv des Internets geben. Nur wie? Und wer macht das?

In diesem Fenster soll der Inhalt eines Drittanbieters wiedergegeben werden. Hierbei fließen personenbezogene Daten von Dir an diesen Anbieter. Aus technischen Gründen muss zum Beispiel Deine IP-Adresse übermittelt werden. Viele Unternehmen nutzen die Möglichkeit jedoch auch, um Dein Nutzungsverhalten mithilfe von Cookies oder anderen Tracking-Technologien zu Marktforschungs- und Marketingzwecken zu analysieren.

Wir verhindern mit dem WordPress-Plugin „Embed Privacy“ einen Abfluss deiner Daten an den Drittanbieter so lange, bis Du aktiv auf diesen Hinweis klickst. Technisch gesehen wird der Inhalt erst nach dem Klick eingebunden. Der Drittanbieter betrachtet Deinen Klick möglicherweise als Einwilligung die Nutzung deiner Daten. Weitere Informationen stellt der Drittanbieter hoffentlich in der Datenschutzerklärung bereit.

Zur Datenschutzerklärung von Vimeo

Zur Datenschutzerklärung von netzpolitik.org

Zugang gestalten 2016, E17: Wer archiviert das Internet? from iRights.info on Vimeo.

Täglich gehen Millionen neuer Internetseiten online, Milliarden Menschen weltweit speisen in jeder Sekunde Daten ins Web: Bilder, Dissertationen, Kochrezepte, Gebrauchsanweisungen, Bücher, Videos oder Software.
Doch wer kümmert sich eigentlich um diese Daten? Wer sammelt die vielen Inhalte, um sie auch dann noch zugänglich zu machen, wenn sie einmal gelöscht wurden? Wer sorgt dafür, dass wir auch in fünfzig Jahren noch nachvollziehen können, was es mit den Cat-Memes auf sich hatte?

Menschen, die das Internet archivieren. Wie eine Bibliothek Bücher archiviert. Nur mehr.

In den USA wird bereits seit 1996 archiviert

Während das Thema in Deutschland oft noch stiefkindlich behandelt wird, gibt es in den USA bereits seit zwanzig Jahren Bestrebungen, ein digitales Gedächtnis zu erstellen. Der Pionier der Internetarchivierung dürfte wohl Brewster Kahle sein, der bereits 1996 angefangen hatte, das Internet zu archivieren. Wenig später ging aus diesem Anfang die Non-Profit-Organisation „Internet Archive“, mit Sitz in Amerika, hervor. Ihr erklärtes Ziel: „to collect all of human knowledge and make it available to everyone in the world“, sagt Alexis Rossi, Director of Web Services bei Internet Archive.

Internet Archive, mit der Website archive.org, hat mittlerweile rund 275 Milliarden Webseiten gespeichert, die weltweit frei zugänglich sind. Dabei beschränkt sich die Organisation nicht auf Webseiten, sie archiviert auch Bücher, CDs, Filme und vieles mehr. Doch was sie von herkömmlichen Archiven unterscheidet, ist die umfangreichste Sammlung von Webseiten und die Erfindung der „Wayback-Machine“. Ein und dieselbe Webseite wird zu unterschiedlichen Zeitpunkten gespeichert – manche auch mehrmals täglich – und in der Wayback-Machine gespeichert. Über die Seite archive.org können Nutzer dann weltweit auf die Wayback-Machine zugreifen.

Es wird immer nur ein Teil des Internets archiviert

Doch was findet man im Archiv? „Es ist nicht möglich, das ganze Internet zu archivieren“, sagt Bert Wendland von der französischen Nationalbibliothek. Das liegt vor allem an mangelnden Ressourcen, manche Organisationen möchten das aber auch nicht. So wie Nationalbibliotheken beispielsweise. In Frankreich werden daher nur die in Frankreich registrierten Domains gespeichert, und auch hier stoßen die Antiquare auf Probleme: Es gibt relevante nationale Seiten, die zum Beispiel auf .info enden und daher in der Suche nach .fr-Seiten nicht erfasst werden. Auch sind die Crawler nicht in der Lage, zum Beispiel neue Videostrukturen zu erkennen, und können diese daher nicht speichern. Doch das größte Problem sieht Wendland in der Aktualität: „Jeden Tag gibt es so viele neue Seiten und bestehende werden weiter entwickelt. Das abzudecken ist kaum möglich“.

In Deutschland werden noch andere Prioritäten gesetzt

In Deutschland kann man davon nur träumen. Erst spät fing die Deutsche Nationalbibliothek an, auch Websites zu archivieren. Seit 2006 gibt es die gesetzliche Pflicht, Netzinhalte zu archivieren, doch zehn Jahre später werden in der Deutschen Nationalbibliothek in Leipzig gerade einmal 1.900 Seiten halbjährlich gespeichert, und wie überall in Europa kann auf dieses Archiv auch nur vom Lesesaal aus zugegriffen werden. Überdies wird ereignisorientiert gesammelt, also etwa bei einer Bundestagswahl oder einem besonderen Hochwasser.

Doch die Priorität der Archivierung liegt nach wie vor auf der printorientierten Sammlung: E-Books, E-Journals oder Tageszeitungen in pdf-Format. Man sehe oft auch keine Notwendigkeit mehr, in die Archivierung des Internets zu investieren, wenn Anbieter wie Internet Archive das schon länger und vollständiger tun, sagte die Generaldirektorin der Deutschen Nationalbibliothek, Dr. Elisabeth Niggemann, auf der Konferenz. Einer der Zuhörer hielt dies für eine „kulturpolitische Schwächung“.

Was kommt rein, was nicht?

Doch wenn das Internet nicht vollständig abgebildet werden kann, wie wird dann selektiert?
Internet Archive beispielsweise speichert grundsätzlich alle WordPress-Seiten, Wikipedia in jeder Sprache und alle auf Twitter geteilten YouTube-Videos. Daneben archiviert es für über 400 Bibliotheken, Universitäten oder andere Institutionen Seiten nach Auftrag, also beispielsweise alle Domains eines Landes oder alle Seiten einer Sprache.

Doch die wohl interessanteste Speichermethode ist das Speichern „on demand“. Internet Archive bietet die Möglichkeit, unter „save page now“ jegliche URL einzugeben, die dann nicht nur in der Wayback-Machine gespeichert wird, der Nutzer erhält auch eine URL, die nie gelöscht werden kann. Das ist vor allem für die Quellenangabe bei wissenschaftlichem Arbeiten oder auch für die Recherche von Journalisten wichtig.

Fast unberührt bleibt aber bislang die Archivierung sozialer Netzwerke. Das liegt vor allem an der Komplexität und den vorhandenen und wichtigen Datenschutzrichtlinien. Eine der zentralen Herausforderungen der Internetarchivierung wird es sein, dass die gesammelten Daten auch in der Zukunft noch zugänglich bleiben: Dateiformate und Endgeräte ändern sich immer schneller, weshalb die Inhalte unter Umständen so aufbereitet werden müssen, dass auch längst veraltete Formate auf aktuellen Geräten lesbar bleiben.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

6 Ergänzungen

  1. Ich nehme mal an das der NSA da eine wesentlich umfangreichere Kopie für die interne Verwendung hat als wir uns das so überhaupt vorstellen können.

  2. Es gibt noch eine Gruppierung anderer Art – Brasilien Nordosten – Sekte Assambleia de Deus. Diese Sammelt Daten von Personen – Identitätsraub – um diese zu passenden Gelegenheiten gegen Personen zu benutzen. Erlebt in Brasilien gleichfalls Heute in Deutschland.

  3. „Seit 2006 gibt es die gesetzliche Pflicht, Netzinhalte zu archivieren“
    Ah, ich erinnere mich noch an die Diskussion damals. Man sollte seine Webpages ähnlich wie schriftliche Publikationen zum archivieren einreichen. Interessiert doch letztlich eh keinen Webseitenbetreiber, da einfach zu unpraktisch und realitätsfern.

  4. Ich hoffe, das Web und nicht das Internet soll archiviert werden. Das Internet archivieren hiesse, wenn es überhaupt etwas heisst, den Datenverkehr archivieren, also Vorratsdatenspeicherung.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.