Archive.org Das Gedächtnis des Internets

Brewster Kahle erfand das Internet-Portal "Archive.org". Sein Traum: Ein digitales Archiv, in dem alles gespeichert ist, was im Internet passiert.
14.06.2017, 19:52
Lesedauer: 5 Min
Zur Merkliste
Das Gedächtnis des Internets
Von Katharina Frohne

Brewster Kahle, der Gründer des größten Internetarchivs der Welt, erzählt gern von der Großen Bibliothek von Alexandria, wenn er von seiner Vision spricht. Denn auch sie war die Erste ihrer Art: eine Sammlung aller schriftlichen Zeugnisse der Menschheit. Über Jahrhunderte verfolgte die 288 vor unserer Zeit errichtete Bibliothek das Ziel, alle Schriftstücke der Welt in sich zu versammeln.

Bis sie zerstört wurde – und alles in ihr archivierte Wissen unwiederbringlich verloren ging. Auch das Internet ist vom Verschwinden bedroht. Weniger als hundert Tage beträgt die durchschnittliche Lebensdauer einer Homepage, täglich werden Millionen neuer Webseiten online gestellt und bestehende teils sekündlich verändert. Um zu verhindern, dass all das Wissen im Netz irgendwann verloren ist, erfand Kahle das Internet Archive. Sein Traum: Ein digitales Archiv, in dem alles gespeichert ist, was in den Weiten des Internets passiert.

Nicht nur Webseiten werden gelagert

1996 startete das Internet Archive als Webarchiv, in dem Kopien von Internetseiten lagerten. Heute umfasst die gigantische digitale Bibliothek neben aktuell 283 Millionen Webseiten auch zwölf Millionen digitalisierte Bücher, mehr als drei Millionen Videos, 1,5 Millionen Fotos, vier Millionen Audiodateien und fast 200.000 Softwareprogramme.

Alle Inhalte sind unter www.archive.org frei zugänglich, das Internet Archive begreift sich als „universaler Zugang zum Wissen“. Die Non-Profit-Organisation finanziert sich vor allem über Spenden. Im Software-Archiv lassen sich MS-Dos-Spiele wie „Prince of Persia“ oder „Wasteland“ direkt im Browser spielen, im Filmarchiv können Klassiker wie Hitchcocks „39 Stufen“ oder „Nosferatu“ im Originalton angesehen werden.

Im Bildarchiv können Besucher sich durch mehr als 200.000 Bilder des Metropolitan Museums, All-Fotografien der Nasa, Plattencover oder alte Illustrationen von Seeungeheuern klicken. Gespeichert sind die Datenmassen – derzeit mehr als 30 Petabyte – auf gigantischen Servern in einer ehemaligen Kirche in San Francisco.

Ununterbrochene Suche

Und damit das Wissen auch wirklich sicher ist, gibt es Kopien des vollständigen Datenbestands in Amsterdam, im kalifornischen Richmond und – natürlich - der neuen Bibliothek von Alexandria. Ein vierter Speicherstandort entsteht derzeit in Kanada. Die wohl meistgenutzte Funktion des Internet Archivs ist die sogenannte Wayback Machine, die wie eine Zeitmaschine für das Internet funktioniert.

Lesen Sie auch

Mit ihr lässt sich bis ins Jahr 1996 zurückreisen, 21 Jahre Internetgeschichte sind in ihr dokumentiert. Homepages sind als sogenannte Snap­shots festgehalten, als Schnappschüsse, die zeigen, wie eine Seite zu einem bestimmten Zeitpunkt in der Vergangenheit ausgesehen hat.

Über eine Suchmaske kann nach konkreten Internetadressen oder verwandten Stichwörtern gesucht werden. Ist die gesuchte Seite erfasst, ist auf einer Zeitleiste zu sehen, wann wie viele Kopien angefertigt wurden. Ein Klick auf das jeweilige Datum führt zur früheren Variante der Homepage. Etwa 300 Millionen Stück speichert das Archiv derzeit pro Woche, ununterbrochen wird das Netz nach neuen Inhalten durchsucht.

Sicherung für nachfolgende Generationen

Von jeder der bereits archivierten Seiten werden regelmäßig neue Versionen für die Nachwelt festgehalten, vielgeklickte Seiten werden mehrmals täglich archiviert. Das Internet soll gespeichert werden, wie es wirklich ist. Und da es sich unentwegt verändert, müssen regelmäßig neue Kopien gemacht werden.

Mehr als 1000 freiwillige Helfer und 150 Internet-Archivare kümmern sich um die Pflege der Daten. Ziel des Archivs ist es laut Gründer Kahle, das im Internet generierte Wissen für nachfolgende Generationen zu sichern. Das Netz als wichtigstes Medium unserer Zeit sei ein Abbild der Gegenwart.

Immer wieder betont Kahle in Interviews, dass aus heutiger Perspektive eben noch nicht abzuschätzen sei, welche Informationen für die Menschen der Zukunft einmal wichtig sein könnten. Er hält nichts davon, nur bestimmte digitale Artefakte für bewahrenswert zu erklären. Jede Website, jedes Video, jedes Foto sei als kreatives Hervorbringnis der Menschheit potenziell bedeutsam.

Lesen Sie auch

Schutz gegen Eingriffe der Regierung

Kahle will deshalb einfach alles archivieren, von den meistgeklickten Nachrichtenportalen über Blogs und Firmenwebseiten bis zu Memes und Katzenvideos. Und noch etwas anderes will Kahle sicherstellen: Anlässlich Donald Trumps Sieg bei der US-Wahl im November 2016 schreibt er in einem Blogeintrag, es sei wichtig, die Wayback Machine gegen Eingriffe von Seiten der Regierung zu schützen – damit „niemals jemand die Vergangenheit verändern kann, weil es kein digitales Zeugnis von ihr gibt.“

Für alle, die im Internet nach irgendetwas suchen, ist das Projekt ein Glücksfall. Mit der Wayback Machine lässt sich aufstöbern, auf was Suchmaschinen wie Google längst nicht mehr zugreifen kann – weil Webseiten gelöscht wurden und damit nicht mehr zu finden sind. Die Zeitmaschine zeigt aber auch: Es reicht nicht aus, etwas zu löschen, um es aus dem Internet verschwinden zu lassen.

Wurde eine Homepage vom Internet Archive erfasst, ist sie weiterhin über die Suchfunktion abrufbar – einschließlich aller gespeicherten früheren Versionen. Wer möchte, dass seine Webseite nicht mehr über die Suchfunktion der Wayback Machine zu finden ist, kann per E-Mail eine Anfrage an info@archive.org schicken.

Alles, was online ist, kann abgespeichert werden

Sofern der Antragsteller zweifelsfrei nachweisen kann, dass er tatsächlich Besitzer der betreffenden Homepage ist, wird die Seite in der Regel nach wenigen Tagen entfernt. Klar ist aber auch: Nur wer weiß, welche Informationen über ihn gespeichert sind, kann sie auch gezielt löschen lassen.

Markus Beckedahl, Gründer von netzpolitik.org, rät Internetnutzern deshalb, nie unbedacht etwas ins Netz zu stellen. „Man sollte sich darüber bewusst sein, dass alles, was erst mal online ist, abgespeichert werden kann“, sagt Beckedahl. Zum Beispiel im Internet Archiv. Trotzdem findet Beckedahl, dass der Nutzen des digitalen Archivs für die Allgemeinheit überwiegt.

„Es ist zu befürchten, dass wir in 100 Jahren mehr über das Mittelalter wissen als über die heutige Zeit, in der es schon Probleme bereitet, 15 Jahre alte Doc-Dokumente zu öffnen“, sagt Beckedahl. Das Internet Archiv arbeite daran, das zu verhindern. Das sei gut und wichtig – „nur so kann eine umfassende Doku­mentation unserer Gegenwart gelingen“.

Medienwerke in unkörperlicher Form

Hierzulande gibt es bislang kein vergleichbares Projekt – dabei gelten Netzpublikationen in Deutschland seit 2006 wie auch Bücher als erhaltenswertes Kulturerbe. Die Deutsche Nationalbibliothek in Leipzig ist deshalb seither dazu verpflichtet, auch „Medienwerke in unkörperlicher Form“ zu speichern und „alle Darstellungen in öffentlichen Netzen“ zu archivieren. Tatsächlich werden dort bislang aber weniger als 4000 Internetseiten im Jahr gespeichert.

Dass sich daran in absehbarer Zeit etwas ändert, hält Markus Beckedahl für wenig realistisch. Zum einen sei da das restriktive deutsche Urheberrecht, das die digitale Archivierung ausbremse. Zum anderen gebe es bei uns noch kaum ein Bewusstsein dafür, wie wichtig es ist, die Inhalte des Internets als wichtigstes Medium unserer Zeit zu bewahren.

Lesen Sie auch

Jetzt sichern: Wir schenken Ihnen 1 Monat WK+!
Mehr zum Thema
Lesermeinungen

Das könnte Sie auch interessieren

Das Beste mit WK+