Web-Archivierung

Nationalbibliothek sammelt österreichisches Web

Web
13.03.2009 12:55
Wer in ein paar Jahrzehnten die Urlaubs-Schnappschüsse seiner Großeltern sucht, könnte diese an einem unerwarteten Ort finden: In der Österreichischen Nationalbibliothek. Denn dort wird ab heuer das österreichische World Wide Web archiviert. Dazu gehören alle Websites mit einer ".at"-Endung - also neben Nachrichtenportalen, offiziellen Websites und Firmen-Homepages unter anderem auch private Blogs und Online-Fotoalben. "Wir können nicht wissen, was unsere Nachfolger einmal interessieren wird", sagte die Leiterin der Hauptabteilung "Digitale Bibliothek" in der Nationalbibliothek, Bettina Kann.

Die Nationalbibliothek wird nach einer Novelle im Mediengesetz, die am 1. März in Kraft getreten ist, künftig ein- bis zweimal im Jahr alle österreichischen Websites automatisch aufrufen, die dort veröffentlichten Daten auslesen und auf eigenen Speichermedien archivieren. Rund 800.000 Websites mit der Endung ".at" werden erfasst, dazu kommen noch Adressen mit anderen Endungen wie ".eu", ".org" oder ".net", die einen eindeutigen Österreich-Bezug haben. Nachrichtenseiten und andere Websites von größerem Interesse sollen täglich ausgelesen werden.

Im Herbst soll der erste vollständige "Crawl" stattfinden, also das erste automatisierte Sammeln der Daten des österreichischen Webs. Wie groß diese Datenmenge sein wird, kann trotz zweimaliger Probeläufe (2008 bei der Fußball-Europameisterschaft und bei der Nationalratswahl) nicht genau gesagt werden, so Kann. Man schätzt, dass das Archiv nach fünf Jahren rund 80 Terabyte an Daten umfassen werde. Die Daten werden nicht in der Nationalbibliothek, sondern im Bundesrechenzentrum gespeichert und gepflegt.

Einen nicht geringen Anteil daran dürften persönliche Homepages ausmachen. Ob Privates wie etwa Urlaubsfotos aus den norditalienischen Touristen-Hochburgen wissenschaftlichen Wert hat, ist für Kann nicht die entscheidende Frage. So habe man auch bisher "so viel wie möglich" an publizistischem Schaffen gesammelt. "Vielleicht gibt es tatsächlich jemanden, der einmal genau danach recherchieren will: Wie war das Bild von Bibione im Jahr 2009, was war der touristische Eindruck?"

Momentaufnahme des österreichischen Webs im Jahr 2009
Dass man bei automatischer Erfassung unweigerlich auch viel Datenmüll mitsammelt, wird in Kauf genommen: "Wir wollen einen Eindruck davon geben, wie das Web im Jahr 2009 in Österreich tatsächlich ausgesehen hat." Eine lückenlose Dokumentation sei jedoch nicht zu schaffen. Insbesondere die immer häufiger verwendeten Multimediadateien - Filme auf Videoplattformen, Flash-Animationen, Musikstücke - stellen nicht nur wegen der Datenmenge eine Herausforderung für die Sammler da. Wie Video- oder Animations-Formate für künftige Generationen zugänglich gehalten werden sollen, wenn die dazugehörige Abspielsoftware nicht mehr erhältlich ist, sei eine offene Frage.

Eine Kostenfrage sei hingegen, diese Daten regelmäßig in aktuelle Formate zu migrieren, um die Abspielbarkeit zu erhalten, oder als Alternative auch die Abspielsoftware mitzuarchivieren. "Die Kosten fallen nicht nur bei der Erstspeicherung an. Das geht über Jahre hinweg." Wie groß diese Kosten insgesamt werden, darüber "fehlen noch die Langzeit-Erfahrungswerte". Man müsse "klar sagen: Es wird nicht gelingen, alles lesbar zu halten." Ein großes Ressourcen-Problem seien auch die Indexes, die die gespeicherten Daten durchsuchbar machen, schildert Kann. Auch dafür fallen große Datenmengen an.

Auch eine Online-Veröffentlichung "ist eine Veröffentlichung"
Urheberrechtsprobleme sieht Kann keine, wenn nun auch Websites in der Nationalbibliothek archiviert werden. Denn eine Online-Veröffentlichung "ist eine Veröffentlichung", und laut Mediengesetz besteht nun auch Abgabepflicht für Websites, die "für die Öffentlichkeit bestimmt sind", erläutert Kann. Wer also seine Urlaubsfotos online mit Passwort vor Zugriff schützt, muss diese nicht abliefern: "Ein privates Fotoalbum bleibt privat, denn geschützte Bereiche wenden sich nicht an die Öffentlichkeit."

Alles frei Zugängliche im "österreichischen Web" kann jedoch ausgelesen und archiviert werden. "Wenn jemand etwas völlig offen auf seine Website stellt, dann gehen wir davon aus, dass er ein Interesse daran hat, dass die Öffentlichkeit daran teil hat. Wenn jemand etwas nicht veröffentlichen will, dann soll er es ja nicht ins Netz stellen." Gänzlich ausgeblendet werden Plattformen wie Myspace oder Facebook - "das würde unsere Maschinen überfordern".

Gesammelte Daten nicht online abrufbar
Im Gegensatz etwa zur Non-Profit-Organisation "Internet Archive", die ebenfalls das Web archiviert, werden die von der Nationalbibliothek gesammelten Web-Daten nicht wieder online zugänglich gemacht. Interessierte müssen in der Nationalbibliothek an speziellen Computerterminals recherchieren und können dort Ergebnisse nur ausdrucken und nicht per E-Mail versenden. "Es ist anachronistisch. Aber es ist nicht ausgeschlossen, dass sich das ändert", bestätigt Kann.

Eine offene Frage ist noch, wie lange elektronische Daten überhaupt archiviert werden können. "So lange wie möglich", ist das Ziel, so Kann. Denn bekanntlich kann man ein ägyptisches Papyrus von vor mehreren tausend Jahren noch lesen, zwei Jahrzehnte alte Daten jedoch oft nicht mehr. Wird man in ein paar Jahrhunderten also die gesammelten Daten noch verwenden können oder werden nur die Papyri Bestand haben? "Das werden wir leider nicht mehr erleben", lacht Kann.

Loading...
00:00 / 00:00
play_arrow
close
expand_more
Loading...
replay_10
skip_previous
play_arrow
skip_next
forward_10
00:00
00:00
1.0x Geschwindigkeit
explore
Neue "Stories" entdecken
Beta
Loading
Kommentare

Da dieser Artikel älter als 18 Monate ist, ist zum jetzigen Zeitpunkt kein Kommentieren mehr möglich.

Wir laden Sie ein, bei einer aktuelleren themenrelevanten Story mitzudiskutieren: Themenübersicht.

Bei Fragen können Sie sich gern an das Community-Team per Mail an forum@krone.at wenden.



Kostenlose Spiele