Der Obmann des Vereins Quintessenz, Georg Markus Kainz, erklärt im Gespräch mit pressetext: “Einmal veröffentlichte Informationen sind kaum sauber aus dem Internet entfernbar. Öffentlich zugängliche Archive zu führen ist nicht die Aufgabe von Suchmaschinen.”
Crawler sehen alles
Ein böses Erwachen gab es für das australische Unternehmen Medvet. Über Google Cache waren, dank eines Fehlers im System der Seite, die Namen, Adressen und Aufträge hunderter Besteller von DNA-Testkits, unter anderem für Vaterschaftsnachweise, auf einmal öffentlich einsehbar. Auch einen Tag nach Bekanntwerden des Problems waren die heiklen Informationen via Suchmaschine noch auffindbar, berichtet das Portal theaustralian.com.
Ein Fall, der auf ein grundlegendes Problem hinweist. Die Indizierungs-Roboter der Suchmaschinen – sogenannte Spider oder Crawler – erfassen Webpräsenzen vollständig, so Kainz. Damit erreichen sie oft auch Seiten, an die selbst der Betreiber nicht mehr denkt. So kann es schnell passieren, dass plötzlich Informationen allgemein zugänglich werden, die nicht für die Öffentlichkeit gedacht sind.
Suchanbieter “tolerieren” das Problem
Technisch gesehen ist die Durchsuchung von Internetseiten unerlässlich für das Funktionieren von Suchmaschinen. Dass die so erfassten Daten jedoch rückwirkend einsehbar sind, hält Kainz für ein ernsthaftes Problem. “Die Priorität liegt beim Produkt, nicht beim Datenschutz. Das Problem wird also toleriert.”
Zwar lässt sich die dauerhafte Speicherung mit einem “Control-Cache-Tag” unterbinden, jedoch kann ein Tippfehler ausreichen, um das Kommando an die Suchroboter unwirksam zu machen. Das mögliche “Opt-Out” ändert jedoch nichts daran, dass das Anbieten eines frei einsehbaren Caches nicht im Aufgabengebiet von Suchmaschinen liegt, meint Kainz. Die von den Suchmaschinen zugänglich gemachten Seitenarchive verschlimmern zudem das Problem, dass einmal veröffentlichte Informationen praktisch nicht mehr spurlos aus dem Web gelöscht werden können.
Diskussion um Copyright
Auch Rechteinhaber sehen im Web-Caching und in Aggregierungs-Diensten wie Google News ein Problem. Schon 2003 waren in Googles Seitenarchiv Online-Inhalte der New York Times aufgetaucht, die eigentlich nur für registrierte Benutzer gedacht waren. Erst vor Kurzem warf der Suchriese einige belgische Zeitungen sowohl aus Suche und Newsdienst, nachdem sie über ihre Vertreterorganisation Copiepresse erfolgreich wegen Urheberrechtsverletzung geklagt hatten. (pte Austria)