Archive Team: Shutdowns machen auch an den Wochenenden nicht Halt

Das Archive Team ist keine offizielle Organisation, sondern eine lose Gruppe. Sie besteht aus Menschen, die sich per Chat in IRC-Kanälen organisieren. Die Mitglieder eint ein Ziel: das Internet zu archivieren.

Dafür entwickelt das Team eigens Web-Scraper, mit denen sie Daten einsammelt. Web-Scraper sind automatisierte Computerprogramme, die Daten und Inhalte von Websites extrahieren. Die gesammelten Daten hostet das Team bei Internet Archive, das diese dann über die sogenannte Wayback Machine der Öffentlichkeit zugänglich macht.

Mit Hilfe der Wayback Machine können Nutzer:innen das Internet über mehrere Jahrzehnte hinweg durchscrollen. Die Inhalte sind in der Regel mit dem Hinweis versehen, wann das Archive Team die Daten bereitgestellt hat. Obwohl sie dem Archiv die gesammelten Daten zur Verfügung stellen, ist die Gruppe nicht mit dem Internet Archive verbunden.

Ohne die unermüdliche Arbeit des Archive Teams wäre ein Großteil des historischen Internets wohl verloren. Wir haben mit drei Mitgliedern des Teams, das über keine:n Pressesprecher:in verfügt, über das Projekt gesprochen.

netzpolitik.org: Wie hat das Archive Team seinen Anfang genommen?

arkiver: Das Archive Team wurde im Jahr 2009 von Jason Scott gegründet. Heutzutage ist er allerdings nur noch selten beim Archive Team anzutreffen. Die Sammlung im Internet Archive wurde 2011 erstellt. Ich kam vor fast zehn Jahren zum Team hinzu.

netzpolitik.org: Der Betrieb von Servern mit viel Bandbreite kann teuer werden. Wie bezahlt ihr das?

JustAnotherArchivist: Bislang gibt es keine großen Geldzuwendungen. Vielmehr mieten einzelne Leute zum Beispiel Server für die Nutzung durch unsere Skripte und Software. Sie bezahlen das dann mit ihrem eigenen Geld aus ihrem normalen Job. Das Ganze als ein teures Hobby zu bezeichnen, wäre durchaus zutreffend.

netzpolitik.org: Dieses ehrenamtliche Hobby betreibt das Team seit nunmehr 14 Jahren. Das ist eine lange Zeitspanne. Was treibt Euch an?

arkiver: Die Arbeit an der Archivierung des Internets ist unglaublich wichtig und spannend. Und die technischen Probleme, die auftreten können, fordern einen heraus. Außerdem sind die Menschen im Archive Team sehr motiviert, was mich ebenfalls antreibt.

netzpolitik.org: Was macht die Arbeit so wichtig?

arkiver: Ich bin der Meinung, dass unsere Arbeit ein wichtiger Beitrag dafür ist, die Geschichte zu bewahren. Besonders die Inhalte von Nachrichten- und Regierungsseiten und dergleichen mehr. Dabei geht es um sogenannte Outlinks. Das sind Links von einer URL zu einer anderen Domain. Wir sind besonders an diesen sogenannten ausgehenden Links interessiert, die reale Menschen posten. Denn wenn ein Mensch einen Link zu einem anderen Ort online postet, hat dieser Ort für ihn offenbar einen gewissen Wert und kann somit insgesamt wertvoll sein.

Alles können wir nicht speichern. Das Internet ist sehr groß, und der Versuch, jeder einzelnen URL zu folgen, um wirklich alles zu archivieren, muss scheitern. Die Anzahl der URLs und Daten, die man findet, wird sehr schnell unüberschaubar.

Wir müssen also eine Auswahl treffen. Wir können zum Beispiel sehen, was die Leute auf Reddit oder in ihren Blogs verlinken. Oder was zu Websites von Regierungen oder seriösen Medien verlinkt wird. Wenn eine Website an bestimmten Stellen verlinkt wird, gibt es dafür einen Grund. In der Regel haben die Daten hinter dem Link einen gewissen Wert. Damit lohnt sich meist auch deren Archivierung.

„Die ganze Sache ist eine Gruppenleistung“

JustAnotherArchivist: Ich stimme mit allem überein, was arkiver gesagt hat. Es ist eine sinnvolle Aufgabe. Die Menschen, die unsere Archive nutzen, wenden sich nicht oft an uns. Aber wenn sie es tun, dann sagen sie meist, dass sie überglücklich sind, weil ihre Inhalte, die einst auf einer längst toten Seite waren, noch existieren. Plays.tv war so ein Projekt der vergangenen Jahre, zu dem sich besonders viele Leute gemeldet haben.

Derzeit entstehen immer mehr Informationen digital und im Internet. Sie sollten bewahrt werden und damit der Kontext unserer Zeit. Ein gutes Beispiel hierfür sind politische Ereignisse wie Regierungshandeln oder Wahlen. Bei denen ist es oft schwierig, noch Jahre später relevante Ressourcen wie öffentliche Erklärungen oder Wahlversprechen zu finden.

Dann ist da noch der technische Teil: Jedes Projekt hat seine eigenen Herausforderungen, für die es keine allgemeinen Lösungen gibt. Daher hat unsere Arbeit auch einen kreativen Aspekt, da die kniffligeren Herausforderungen oft entsprechende Lösungen erfordern. Und ja, es ist relativ einfach, einen bedeutenden Beitrag dazu zu leisten. Denn was wir machen, ist eine Nischenaktivität mit nur wenigen Akteur:innen auf der Welt.

rewby: Archivarbeit in dem Umfang, wie wir sie betreiben, erfordert so viel Wissen, dass es für eine einzelne Person nicht zu bewältigen wäre. Ich bin seit etwa 2021 beim Archive Team. Wir alle haben unsere Spezialgebiete. Einige von uns kennen Teile des verworrenen Spaghetti-Codes, der diesen Ort zusammenhält, besser als jeder andere. Die ganze Sache ist eine Gruppenleistung.

Ich kümmere mich zum Beispiel hauptsächlich um das Hochladen von Daten ins Internet Archive. Aber selbst das kann sich als überaus kompliziert erweisen, wenn es sich um Gigabytes an Daten und Millionen von Dateien pro Minute handelt.

Andererseits kenne ich mich nicht sehr gut mit dem Code aus, der tatsächlich die Seiten erfasst, die ich schließlich hochladen muss.

arkiver: Für das Archivieren werden unter anderem sogenannte Warriors benutzt. Ein Warrior ist eine auf eine virtuelle Maschine aufsetzende Umgebung, mit der einzelne Nutzer ihre zuvor heruntergeladene Seiten hochladen können.

Das Programm führt ein bestimmtes Projekt aus, das wir den Leuten zur Verfügung stellen. Das kann ein Scraper sein, der über die IP-Adresse dieser Person zum Einsatz kommt. Häufig werden IP-Adressen fürs Scraping gesperrt. Daher sind wir dankbar, wenn es möglichst viele Warriors mit unterschiedlichen IPs gibt.

Ein Petabyte an Telegram-Daten

netzpolitik.org: Ihr habt auf diese Weise mehr als ein Petabyte des Telegram-Webinterface gecrawlt. Wie habt ihr das geschafft?

rewby: Ich habe mir den Telegram-Scraping-Code nicht so genau angeschaut, aber alle Warrior-Projekte sind grundsätzlich ziemlich ähnlich.

Wir haben einen Tracker, der Einheiten von Arbeitsaufgaben aufzeichnet. Diese Einheiten bestehen in der Regel aus einzelnen Beiträgen, Forumsthemen oder weiteren solcher Elemente. Die Definition eines „Elements“ hängt vom jeweiligen Projekt ab.

Bei den Warriors kommt die öffentliche Beteiligung ins Spiel. Sie werden auf jedem beliebigen Rechner ausgeführt, vom Privat-PC zu Hause bis zu Hochleistungsservern in Datenzentren. Die Warriors fordern Elemente aus dem Tracker an und führen dann ein projektspezifisches Codestück aus, das einen bestimmten Teil der zu archivierenden Website abgreift.

Der Warrior speichert die Daten in sogenannten Web ARChive-Dateien (WARC-Dateien). Diese Dateien enthalten eine exakte Kopie sowohl der Anfrage, die zum Abrufen der Daten gesendet wurde, als auch der Antwort des Servers. Je nachdem, wie das Projekt strukturiert ist, kann es dann versuchen, die abgerufenen Daten zu analysieren, um weitere Dinge zum Archivieren zu finden. Die Daten können entweder sofort archiviert oder an den Tracker zurückgegeben werden, damit jemand anders sie übernimmt.

Schließlich wird die fertige WARC-Datei für jedes Element auf einen der Zielserver für ein Projekt hochgeladen. Diese Dateien sind in der Regel recht klein, von ein paar Kilobytes bis zu einigen Megabytes. Da die Speicherung und Verarbeitung so kleiner Dateien für Einrichtungen wie das Internet Archive mit einem großen Aufwand verbunden ist, fassen wir sie auf den Zielservern zu „Mega-WARCs“ zusammen.

Bei diesem Verfahren werden Millionen von kleinen WARCs zu einer einzigen WARC-Datei mit einer Größe von mehreren Gigabytes zusammengeführt. Diese Mega-WARCs werden in das Internet Archive hochgeladen. Das Internet Archive nimmt sie dann in seine Pipeline auf, die verschiedene Indizierungsvorgänge durchführt, um sie so für die Wayback Machine nutzbar zu machen. Dieser Vorgang dauert in der Regel ein paar Tage.

Wie der ArchiveBot funktioniert

netzpolitik.org: Könnt ihr ausführlicher darauf eingehen, wie Ihr den Chatdienst IRC für die Kommunikation und die Archivierung selbst verwendet?

JustAnotherArchivist: Der ArchiveBot wird normalerweise für sogenannte rekursive Crawls von Websites verwendet. Das heißt: Er beginnt mit einer URL, in der Regel die Startseite, und folgt den Links innerhalb der Website bis keine neuen Links mehr entdeckt werden. In der Standardkonfiguration folgt der ArchiveBot auch Links zu externen Hosts. Dabei handelt es sich um externe Links, die auf der Zielseite erscheinen.

Es gibt auch Modi, mit denen einzelne Seiten oder eine Liste von URLs abgerufen werden können. Die Benutzer bedienen das Programm über den Chatdienst IRC. Damit starten sie Aufträge und steuern diese auch während der Ausführung. So können sie beispielsweise URLs auf der Grundlage von Regex-Mustern ignorieren oder die Abrufrate ändern. ArchiveBot verfügt über eine öffentliche Weboberfläche, über die alles im Detail überwacht werden kann – also auch die einzelnen abgerufenen URLs.

Das System als Ganzes besteht aus mehreren Servern, auf denen jeweils eine bestimmte Anzahl von Aufträgen gleichzeitig läuft. Ein zentraler Server fungiert als IRC- und Web-Schnittstelle und behält den Überblick darüber, was und wo läuft. Die WARC-Daten jedes Auftrags werden kontinuierlich in Paketen von einigen Gigabyte ins Internet Archive hochgeladen, um den Speicherplatzbedarf vor Ort möglichst gering zu halten.

Dieser Ansatz ist für kleine bis mittelgroße Websites geeignet. Aufträge, die reibungslos laufen, rufen üblicherweise alle paar Tage eine Million URLs ab. Wenn das nicht ausreicht, um eine Website vor Ablauf der Frist zu archivieren, müssen wir größere Geschütze auffahren. Das kann ein DPoS-Projekt (Distributed Preservation of Service) sein [Anm: Die ironische Abkürzung DPoS spielt auf DDoS an und stammt aus der Gruppe], was rewby oben als Warrior-Projekt bezeichnet hat, oder andere spezielle Software.

Im Schutz der Anonymität

netzpolitik.org: Warum tretet ihr – auch in diesem Interview – anonym auf?

arkiver: Ich möchte anonym bleiben, damit ich mir keine Sorgen über mögliche negative Auswirkungen auf mein Offline-Leben machen muss. Die Leute zensieren sich oft selbst, und das wäre nicht gut, wenn wir das bei unserer Arbeit im Archive Team tun würden.

Vor allem, weil einige Menschen außerhalb des Archive Teams den Kontext, in dem wir arbeiten, und unsere Beweggründe nicht verstehen könnten. Es ist sehr einfach für andere, unsere Aktivitäten mit einem negativen Etikett zu versehen, das Auswirkungen auf die Gesellschaft oder das Offline-Leben haben könnte. Ich will mich dem nicht direkt aussetzen.

Deshalb ziehe ich es vor, meinen richtigen Namen nicht an das Projekt zu hängen. Nicht aus Angst, sondern um zu vermeiden, dass alles, was ich hier tue, von der Gesellschaft interpretiert und beurteilt wird.

netzpolitik.org: Was sind eure Ziele für die Zukunft?

rewby: Ich persönlich sehe unsere Ziele darin, die Qualität unserer Software zu verbessern, unsere Pipelines zu erweitern, mehr Arten von Websites zu unterstützen – da viele unserer aktuellen Tools auf HTTP/1.1 beschränkt sind – und mehr Dinge zu archivieren. Oder, wie unser Slogan lautet: „Wir werden mehr von eurem Scheiß retten.“

3 Ergänzungen

Lufti sagt:

28. Juli 2023 um 23:59 Uhr

Warum bin ich erst jetzt auf das Warrior Projekt gestoßen?
Macht doch mal etwas mehr Öffentlichkeitsarbeit.
Antwort auf Lufti sagt:

3. August 2023 um 18:46 Uhr

Kann Lufti nur zustimmen. Bin regelmäßig auf r/datahoarder unterwegs und hab noch nie von dem Projekt gelesen.
1. T.H. sagt:
  
  11. August 2023 um 09:21 Uhr
  
  Super wichtige Arbeit im Hintergrund. Danke euch!

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.