Leute, die im großen Stil Daten aus dem Internet ziehen, durchsuchen und gar noch archivieren haben im Moment wenig Freunde. Allerdings gibt es diese Sorte Menschen auch in gut, zu ihnen gehören Betreiber des Internet Archive:
Das Internet Archive in San Francisco ist ein gemeinnütziges Projekt, das 1996 von Brewster Kahle gegründet wurde. Es hat sich die Langzeitarchivierung digitaler Daten in frei zugänglicher Form zur Aufgabe gemacht.
Es speichert Momentaufnahmen von Webseiten, Usenet-Beiträgen, Filmen, Fernsehen, Tonaufnahmen (einschließlich von Live-Konzerten), Büchern und Software. Ein Spiegelserver der Daten von San Francisco befindet sich in der Bibliotheca Alexandrina. Im Oktober 2012 erreichte die Sammlung eine Größe von 10 Petabyte.
Quelle: Wikipedia
Der große Unterschied zu dem, was Geheimdienste so treiben ist der, dass das Internet Archive natürlich nur offen zugängliche Quellen archiviert. Es lohnt sich, das folgende 13-minütige Video einmal anzusehen, um einen Eindruck davon zu bekommen, was diese Leute leisten und wie wichtig ihre Arbeit ist:
http://www.youtube.com/watch?v=ec_-fgy3EGY#!
Ich finde es auch extrem spannend, selbst mal in der Wayback-Machine zu blättern und sich vielleicht die eine oder andere Webseite anzusehen, die man selbst schon auf den Weg geschickt und längst wieder eingestampft hat: http://archive.org/web/web.php