Webarchive — веб-архив всего интернета и сайтов или машина времени на archive.org
Здравствуйте уважаемые читатели блога. Не так давно я писал о том, что такое популярная энциклопедия Википедия, безусловно, заслуживающая всевозможных лестных эпитетов, несмотря на присущие ей недостатки и критику ее статей научным сообществом.
Сам факт того, что некоммерческий проект десятилетиями работает на благо всего интернет-сообщества, заслуживает большого уважения. Но в сети есть еще подобный масштабный проект, который, не получая от этого дохода, играет очень важную роль — сохраняет архивы сайтов, видео, аудио и печатных материалов.
Я имею в виду, конечно, web.archive.org, глобальный проект с, казалось бы, невыполнимой миссией: создать архив всех сайтов, опубликованных в Интернете. Кроме того, сайты сохраняются не в виде скриншотов, а в виде полнофункциональных веб-страниц со всеми ссылками, изображениями и стилями (CSS). Также для каждого сайта за время его существования в сети этот архив может накопить несколько сотен копий, датированных разными этапами жизни ресурса.
Как можно использовать архив сайтов интернета
Чем может быть полезен этот веб-архив?
- Ну, во-первых, вы можете почувствовать приятную ностальгию, просматривая свой сайт многолетней давности. Историю изменений можно будет проследить по любому другому интернет-ресурсу (например, я сделал скриншоты статей об уже умершем Contribution из этого веб-архива, и скриншоты, иллюстрирующие эволюцию главной страницы Яндекса, имеют такое же происхождение).
- Но это еще не все. Если страница сайта, которую вы добавили в закладки, не открывается, то, конечно, можно попробовать удалить ее из кеша Яндекса или Гугла (подробнее о том, как лучше всего искать в Гугле). Но если ресурс давно недоступен, то открыть такие мертвые ссылки нигде, кроме archive.org, не получится (хотя его там может и не быть по причинам, описанным ниже).
- Также, если по каким-то форс-мажорным обстоятельствам вы не сделали резервную копию (бэкап) своего сайта, то этот веб-архив будет единственным способом восстановить ваш сайт. Есть возможность убрать все ссылки с web.archive.org и сделать их прямыми на ваш ресурс (об этом читайте ниже).
-
Ну и последнее, что приходит на ум, это поиск уникального контента. Если вы не можете самостоятельно создавать уникальный контент для сайта (писать статьи), то здесь их можно получить, правда, приложить усилия все же придется. Суть в том, что многие сайты умирают и становятся недоступными вместе с имеющимся на них контентом.
Найдя такие ресурсы, вы можете извлечь тексты из интернет-архива и разместить их на своем сайте, предварительно проверив их уникальность. Поэтому он не занимается плагиатом и не нарушает авторские права, но поиск в веб-архиве многим может показаться весьма трудоемким занятием.
Онлайн-сервис Webarchive ведет свою историю с 1996 года. Задача, поставленная перед проектом, казалась невыполнимой даже с учетом того, что в то время сайтов в Интернете было гораздо меньше, чем сейчас (на несколько порядков). Поначалу сайты архивировались не очень часто, но со временем, по мере увеличения емкости хранилища, Веб-архив стал создавать все больше и больше снимков сайтов.
Этот веб-архив вошел в базу только в 1997 году и его главная страница выглядела так:
Список буржуазных доменных имен, которые освобождаются или уже освобождаются, можно скачать по этой ссылке. Ну а дальше проходим по содержимому сайтов, которые сохранил веб-архив и пытаемся найти что-то стоящее. Затем мы проверяем эти материалы на уникальность (ссылка была дана чуть выше), и в случае успеха публикуем их на нашем ресурсе или продаем на какой-нибудь бирже контента.
Да, метод скучный и лично я его не пробовал. Но я думаю, что при определенной степени автоматизации и промывания мозгов может дать хороший результат. Кто-то, наверное, уже заработал. И что ты думаешь?