Архивная страница. Как найти уникальный контент с помощью Webarchive Machine

Наткнулся на битую ссылку. Ссылка была на мануал по настройке бэкапов для сайта. Тема интересовала настолько, что полез в archive.org смотреть, что там за мануал такой. Там обнаружил блог человека, который когда-то занимался сайтостроительством, какими-то темами в интернете. Но видимо бросил всё это. Блог существовал до декабря 2013 года, потом еще год висела заглушка. Я возьми да и проверь домен сайта. Он оказался свободным. Дело в том, что меня интересовали подобные сайты давно, я время от времени захожу на telderi и присматриваю себе недорогой сайт IT-тематики для покупки. Пока ничего подходящего по цене/качеству не подобрал.

Зачем мне нужен такой сайт? Я вынашиваю план сделать что-то вроде слияния или поглощения. Соединить такой сайт, с вот этим. Чтобы увеличить на нем трафик и прочие ништяки. Кто-то скажет — а как же диверсификация? Безусловно, диверсификация — дело хорошее. Но тут ещё диверсифицировать пока нечего, нужно сначала что-нибудь развить. И вот, видится мне идея слияния сайтов очень перспективной.

Итак, это всё предыстория. Задумал я найденный сайт восстановить. Оказалось на нём около 300 страниц. Зарегистрировал домен и принялся разыскивать инструмент для выкачивания сайта.

Чем восстановить сайт из веб архива?

Процедура-то нехитрая. Бери и качай. Но дело осложняется тем, что страниц много, и все они будут в виде статических html-файлов. Вручную качать замучаешься. Стал спрашивать у людей, которые таким делом занимались. Люди посоветовали r-tools.org. Он оказался платным. Стал гуглить, поскольку я-то знаю, что это простая процедура, и платить за нее не хотелось, пусть и такую небольшую плату. Решение нашлось очень быстро в виде приложения на ruby . Как я и предполагал, всё очень просто, инструкция прилагается.

Устанавливаем утилиту для восстановления сайтов из archive.org

Недолго думая, устанавливаю всё на сервер и запускаю восстановление.

#устанавливаем руби:

apt-get install ruby

#Ставим сам инструмент:

gem install wayback_machine_downloader

Запускаем выкачивание сайта из веб архива

wayback_machine_downloader http://www.site.ru --timestamp 20131209110704

Здесь в опции timestamp можно указывать отметку снапшота. Поскольку сайт может иметь десятки или сотни снимков в веб-архиве. Я указываю последний, когда сайт был еще жив, логично. Утилита сразу же определяет количество страниц и выводит на консоль выкачиваемые страницы.

Все скачивается и сохраняется, получаем россыпь статических файлов в папке. Создаем у себя папку в нужном месте, и кладем туда выкачанные файлы. Я люблю использовать rsync:

rsync -avh ./websites/www.site.com/ /var/www/site.com/

Если вы с ней ещё не знакомы — рекомендую. Это биржа от компании Мирафокс, которую вы возможно уже знаете по другим проектам для вебмастеров (Telderi, Miralinks, Gogetlinks). На Kwork не фрилансеры побираются по размещенным потенциальным заказчиком предложениям, а сами выставляют предложения, которые заказчик может выбрать. «Фишка» сервиса — базовая стоимость любого кворка (так называют предложения фрилансеров) всегда 500 рублей.

Ну а для тех, кто хочет много букв с непонятными командами и скриптами, разобраться и делать самостоятельно — продолжаем.

Создание конфигурации nginx для восстановленного сайта

Я делаю универсальный конфиг, с прицелом на будущее — обработку php. Возможно понадобится, если захочется оживить сайт и доработать фунционал, например формы отправки сообщений, подписки.

А вообще, минимальная конфигурация для статического сайта будет выглядеть примерно так:

Server {
server_name site.ru www.site.ru *.site.ru;
root /var/www/site.ru;
index index.html;

gzip on;
gzip_disable «msie6»;
gzip_types text/plain text/css application/json application/x-javascript text/xml application/xml application/xml+rss text/javascript application/javascript;

location = /robots.txt {
allow all;
log_not_found off;
access_log off;
}

location ~* \.(js|css|png|jpg|jpeg|gif|ico|woff)$ {
expires max;
log_not_found off;
}
}

Эта конфигурация заодно включает в себя — сжатие и кэширование в браузере.

Перезапускаем вебсервер:

service nginx restart

Как проверить сайт без смены DNS?

В принципе можно ждать обновления dns после регистрации домена. Но хочется поскорее увидеть результат. Да и работу можно сразу начать. Для этого есть нехитрый способ — записать IP сервера для нужного домена в файл hosts, запись такого вида:

10.10.1.1 site.ru

После этого нужный сайт станет открываться исключительно у вас на компьютере.

Вот так. Чувствую себя некромантом:)

Сайт будет показываться ровно так, как видели его пользователи. Все ссылки будут работать, поскольку у вас есть все нужные файлы. Возможно какие-то из них будут битыми, где-то будет не хватать изображений, стилей или чего-нибудь ещё. Но это не суть важно — ведь самое главное для любого сайта — контент. А он, скорее всего, сохранится.

Очистка кода восстановленного сайта

Но это ещё не всё. Хотя можно и оставить в таком виде. Но чтобы добиться лучшего эффекта, есть смысл немного причесать восстановленный сайт. Это вообще самая сложная часть во всей этой затее. Дело в том, что раз сайт будет показываться так, как видели его пользователи, в коде страниц будет куча всевозможного мусора. Это в первую очередь реклама, баннеры и счётчики. Также какие-то элементы, которые на статическом сайте ни к чему. К примеру, ссылка для входа в админку сайта. Формы для отправки комментариев, подписки, какие-нибудь кнопки и другие элементы, доставшиеся в наследство от динамической CMS, на которой сайт работал раньше. В моём случае это был WordPress.

Как удалить фрагменты html кода на множестве статических страниц?

Как же это всё можно убрать? Очень просто. Смотреть в коде — и просто удалять ненужное. Легко сказать. Но страниц у нас несколько сотен. Поэтому тут нужна магия.

find ./site.ru/ -type f -name "*.html" -exec sed -i "s|

Вход

||g"
{} \;

Вот такой конструкцией можно убрать ВСЕ html-теги из файла. Самое простое. У вас тогда получатся текстовые файлы

sed -e "s/]*>//g" test.html

Нормальный подход, если вы просто качаете контент и потом будете использовать только полезное содержимое для чего-либо другого — для написания новых статей, для дорвеев, или чего-то ещё.

Но мне это не подходит, я хочу сначала воссоздать сайт полностью и посмотреть как он будет оживать и будет ли вообще. Поэтому работа по очистке кода занимает у меня пару часов кропотливой работы. Я открываю страницы сайта, отладчиком смотрю исходный код страниц, нахожу ненужные мне javascript, баннеры, счетчики, формы.

Вот так я убираю счетчик Liveinternet cо всех страниц моего статического сайта:

find site.ru/ -type f -name "*.html" -exec sed -i "//,//d" {} \;

find site.ru/ -type f -name "*.html" -exec sed -i "s|||g" {
} \;

Несмотря на конструкции, которые несведущему человеку могут показаться страшными — это довольно простые вещи, поскольку в этом счетчике есть уникальные теги-комментарии, по которым мы определяем часть кода для удаления, указав их в качестве паттернов.

В некоторых случаях приходится поломать голову, чтобы вырезать лишнее и не задеть нужное, ведь некоторые элементы могут повторяться на страницах. Например, для удаления счетчика Google Analytics пришлось сочинять вот такое:

Сначала удаляю строку с которой начинается счетчик. Эта команда удаляет строку над паттерном var gaJsHost, поскольку мне нужно удалить её только в этом месте и не трогать нигде больше:

find site.ru/ -type f -name "*.html" -exec sed -i -n "/var gaJsHost/{x;d;};1h;1!{x;p;};${x;p;}" {} \;

Теперь вырезаем остальную часть, которую становится легко идентифицировать по уникальным паттернам в первой и последней строках:

find site.ru/ -type f -name "*.html" -exec sed -i "/var gaJsHost/,/catch(err)/d" {} \;

Аналогичным образом я убираю форму добавления комментариев:

Зачищаю 4 строки с неуникальными закрывающими тегами после строки с уникальным паттерном:

find theredhaired.ru/ -type f -iname "*.html" -exec sed -i "/block_links/{N;N;N;N;s/\n.*//;}" {} \;

А теперь вырезаю довольно большой блок строк на 30, указав уникальные паттерны его первой строки и последней:

find theredhaired.ru/ -type f -iname "*.html" -exec sed -i "/ Подписка/,/block_links/d" {} \;

Вот эти последние пару случаев можно конечно попытаться выпилить с помощью мультистрочных паттернов, но я их так и не осилил, сколько не гуглил. Примеров с multi-line находил много, но они все простые, где нету спецсимоволов, escape-символов (табы, переводы строки).

Возможно всю эту очистку будет проще сделать на php или даже perl, для которого обработка текста это предназначение. Но я, к сожалению, оными не владею, поэтому использую bash и sed.

Всё это я проделывал на отдельной копии сайта с кучей итераций, тестов, чтобы всегда была возможность откатить изменения я сохранял копии после каждого значительного изменения, опять же с помощью rsync.

Как массово редактировать тайтлы и другие элементы на статическом сайте?

Поскольку моя задача не просто воскресить сайт, а добиться его индексации, ранжирования в поиске и даже получения трафика из поиска — мне нужно подумать о каком-никаком SEO. Оригинальные тайтлы мне однозначно не подходят, поэтому я хочу их изменить. В наследие от WordPress досталась схема %sitename% » %postname%. Тем более sitename у нас невнятный — сам домен сайта. Самый простой вариант выпилить первую часть тайтла. Но это мне тоже не годится. Поэтому я поменяю эту часть тайтла на хитрый запрос. Вот так я это делаю:

Как видите, множество проверок и итераций. Но в итоге, тайтлы становятся такими, какими нужно. Можно догадаться, что я затеял попытку собирать на этот сайт трафик по запросам о восстановлении сайтов из веб архива. Зачем мне это нужно — я собираюсь оказывать платную услугу по восстановлению таких сайтов. Как видите, в данном случае довольно просто сделать замену. Можно было не заморачиваться несколькими вариантами, а подвести всё под один. Но мне захотелось убрать или поменять лишние символы, а раз уж вариантов оказалось несколько, то я и поменял их на несколько своих. Такое вот SEO.

Теперь я собираюсь добавить Яндекс Метрику во все html-файлы моего сайта. А заодно перевести его со старой схемы www на без www.

Как перевести статический сайт с www на без www?

Это делается простой заменой:

find ./ -type f -iname ‘*.html’ -exec sed -i ‘s/http:\/\/www.site.ru/http:\/\/site.ru/g’ {} \;

После чего на всякий случай в конфигурации nginx вынесем вариант с www в редирект:

server {
server_name www.site.ru;
return 301 $scheme://site.ru$request_uri;
}

Как создать карту сайта sitemap.xml для статического сайта?

Это понадобится, когда мы будем добавлять сайт в поисковые системы. Это очень важно, учитывая что наш сайт восстановленный, на нем возможно отстутствует какая-нибудь навигация, и на какие-то страницы вообще не будет ссылок. Карта сайта этот момент сглаживает — даже если переходом по самому сайту на страницу попасть нельзя — мы указав ее в sitemap.xml позволим её проиндексировать, что потенциально может привести трафик из поиска прямо на страницу.

Кроме того, через некоторое время я проведу анализ результатов, которых я достиг с этим сайтом. Трафик, лиды или что-то ещё. Так что, следите за обновлениями на сайте, через 2-6 месяцев вы увидите продолжение истории. Покажу стату, если таковая будет и т. д. Если вы читаете эту статью спустя полгода, а ссылки на продолжение до сих пор нет — напомните мне об этом в комментариях, пожалуйста:)

Разобрались, не?

Если вы прониклись, во всём разобрались и собираетесь делать самостоятельно — низкий вам поклон и уважуха. Мне нравятся люди, которые хотят во всём разобраться и постичь.

Каждый сайт - это история, которая имеет начало и конец. Но как проследить этапы становления проекта, его жизненный цикл? Для этих целей существует специальный сервис, который именуется веб-архивом. В этой статье мы поговорим о представлении подобных ресурсов, их использовании и возможностях.

Что такое веб-архив и зачем он нужен?

Веб-архив - это специализированный сайт, который предназначен для сбора информации о различных интернет-ресурсах. Робот осуществляет сохранение копии проектов в автоматическом и ручном режиме, все зависит лишь от площадки и системы сбора данных.

На текущий момент имеется несколько десятков сайтов со схожей механикой и задачами. Некоторые из них считаются частными, другие - открытыми для общественности некоммерческими проектами. Также ресурсы отличаются друг от друга частотой посещения, полнотой сохраняемой информации и возможностями использования полученной истории.

Как отмечают некоторые эксперты, страницы хранения информационных потоков считаются важной составляющей Web 2.0. То есть, частью идеологии развития сети интернет, которая находится в постоянной эволюции. Механика сбора весьма посредственная, но более продвинутых способов или аналогов не имеется. С использованием веб-архива можно решить несколько проблем: отслеживание информации во времени, восстановление утраченного сайта, поиск информации.

Как использовать веб-архив?

Как уже отмечалось выше, веб-архив - это сайт, который предоставляет определенного рода услуги по поиску в истории. Чтобы использовать проект, необходимо:

Зайти на специализированный ресурс (к примеру, web.archive.org).

В специальное поле внести информацию к поиску. Это может быть доменное имя или ключевое слово.

Получить соответствующие результаты. Это будет один или несколько сайтов, к каждому из которых имеется фиксированная дата обхода.

Нажатием по дате перейти на соответствующий ресурс и использовать информацию в личных целях.

О специализированных сайтах для поиска исторического фиксирования проектов поговорим далее, поэтому оставайтесь с нами.

Проекты, предоставляющие историю сайта

Сегодня существует несколько проектов, которые предоставляют сервисные услуги по отысканию сохраненных копий. Вот некоторые из них:

Самым популярным и востребованным у пользователей является web.archive.org. Представленный сайт считается наиболее старым на просторах интернета, создание датируется 1996 годом. Сервис проводит автоматический и ручной сбор данных, а вся информация размещается на огромных заграничных серверах.

Вторым по популярности сайтом считается peeep.us. Ресурс весьма интересен, ведь его можно использовать для сохранения копии информационного потока, который доступен только вам. Заметим, что проект работает со всеми доменными именами и расширяет границы использования веб-архивов. Что касается полноты информации, то представленный сайт не сохраняет картинки и фреймы. С 2015 года также внесен в список запрещенных на территории России.

Аналогичным проектом, который описывали выше, является archive.is. К отличиям можно отнести полноту сбора информации, а также возможности сохранения страниц из социальных сетей. Поэтому если вы утеряли пост или интересную информацию, можно выполнить поиск через веб-архив.

Возможности использования веб-архивов

Теперь каждый знает, что такое веб-архив, какие сайты предоставляют услуги сохранения копий проектов. Но многие до сих пор не понимают, как использовать представленную информацию. Возможности архивных данных выражаются в следующем:

Выбор доменного имени. Не секрет, что многие веб-мастера используют уже прокачанные домены. Стоит понимать, что опытные юзеры отслеживают не только целевые параметры, но и историю предыдущего использования. Каждый пользователь сети желает знать, что приобретает: имелись ли ранее запреты или санкции, не попадал ли проект под фильтры.

Восстановление сайта из архивов. Иногда случается беда, которая ставит под угрозу существование собственного проекта. Отсутствие своевременных бэкапов в профиле хостинга и случайная ошибка может привести к трагедии. Если подобное произошло, не стоит расстраиваться, ведь можно воспользоваться веб-архивом. О процессе восстановления поговорим ниже.

Поиск уникального контента. Ежедневно на просторах интернета умирают сайты, которые наполнены контентом. Это случается с особым постоянством, из-за чего теряется огромный поток информации. Со временем такие страницы выпадают из индекса, и находчивый веб-мастер может позаимствовать информацию на личный проект. Конечно, существует проблема с поиском, но это вторичная забота.

Мы рассмотрели основные возможности, которые предоставляют веб-архивы, самое время перейти к более подробному изучению отдельных элементов.

Восстанавливаем сайт из веб-архива

Никто не застрахован от проблем с сайтами. Большинство их них решается с использованием бэкапов. Но что делать, если сохраненной копии на сервере хостинга нет? Воспользоваться веб-архивом. Для этого следует:

Зайти на специализированный ресурс, о которых мы говорили ранее.

Внести собственное доменное имя в строку поиска и открыть проект в новом окне.

Выбрать наиболее удачный снимок, который располагается ближе к проблемной дате и имеет полноценный вид.

Исправить внутренние ссылки на прямые. Для этого используем ссылку «http://web.archive.org/web/любой_порядковый_номер_id_/Название сайта».

Скопировать потерянную информацию или данные дизайна, которые будут применены для восстановления.

Заметим, что процесс несколько утомительный, с учетом скорости работы архива. Поэтому рекомендуем владельцам больших веб-ресурсов чаще выполнять бэкапы, что сохранит время и нервы.

Ищем уникальный контент для собственного сайта

Некоторые веб-мастера используют интересный способ получения нового, никому не нужного контента. Ежедневно сотни сайтов уходят в небытие, а вместе с ними теряется информация. Чтобы стать владельцем контента, нужно выполнить следующее:

Внести URL
https://www.nic.ru/auction/forbuyer/download_list.shtml#buying в строку поиска.

На сайте аукциона доменных имен скачать файлы с именем ru.

Открыть полученные файлы с использованием excel и начать отбор по параметру наличия проектной информации.

Найденные в списке проекты ввести на странице поиска веб-архива.

Открыть снимок и получить доступ к информационному потоку.

Рекомендуем отслеживать контент на наличие плагиата , это позволит найти действительно достойные тексты. А на этом все! Теперь каждый знает о возможностях и методах использования веб-архива. Используйте знание с умом и выгодой.

В сети есть масштабный проект, который, не получая с этого дохода, выполняет очень важную роль - сохраняет архивы сайтов , видео, аудио и печатной продукции.

Это - web.archive.org - глобальный проект с, казалось бы, невыполнимой миссией - создание архива всех сайтов, когда либо размещенных в интернете. Причем, сайты сохраняются не в виде скриншотов, а в виде полноценно работающих веб-страниц со всеми ссылками, картинками и стилевым оформлением (CSS) . Причем, для каждого сайта за время его существования в сети в этом архиве может накопиться и по несколько сотен копий, датированных разными этапами жизни ресурса.

Как можно использовать архив сайтов интернета

Чем же может быть полезен данный webarchive ?

Во-первых, вы можете погрузиться в приятную ностальгию путешествуя по вашему сайту многолетней давности. Проследить историю изменений можно будет для любого другого ресурса интернета (в посте представлены скриншоты для статей про уже умерший Апорт именно из это вебархива, да и скриншоты, иллюстрирующие эволюцию главной страницы Яндекса , имеют тоже самое происхождение).

Но это не все. Если страница добавленного вами в закладки сайта не открывается, то вы, конечно же, можете попробовать вытащить ее из кеша Яндекса или Гугла (читайте подробнее про то, как лучше искать в Google). Но если ресурс недоступен уже очень давно, то такие мертвые ссылки нигде кроме archive.org открыть уже будет не возможно (правда, и там его может не оказаться по описанным чуть ниже причинам).

Так же, если вы по каким-либо фарс-мажорным обстоятельствам не делали бэкап (резервное копирование) вашего сайта , то данный web-archive будет единственной возможностью восстановить свой сайт . Имеется возможность очистить все ссылки от привязки к web.archive.org и сделать их прямыми именно для вашего ресурса (читайте об этом ниже).

Ну, и последнее, что приходит в голову - поиск уникального контента . Если вы не способны сами создавать уникальный контента для сайта (писать статьи), то здесь вы сможете ими разжиться, правда, усилия приложить все равно придется. Суть такова, что многие сайты умирают и становятся недоступны вместе с имеющимся на них контентом.

Отыскав такие ресурсы вы сможете вытащить тексты из интернет-архива и разместить их у себя, предварительно проверив их на уникальность . Таким образом вы не занимаетесь плагиатом и не нарушаете авторские права (копирайт) , но искать в вебархиве многим может показаться очень уж трудоемкой задачей.

Онлайн сервис Webarchive ведет свою историю аж с 1996 года. Поставленная перед проектом задача казалась невыполнимой даже с учетом того, что сайтов на то время в интернете было значительно меньше, чем сейчас (на несколько порядков). По началу, сайты архивировались не очень часто, но со временем, повышая мощности хранилищ, Веб-архив стал делать все больше и больше слепков сайтов.

Сам себя этот веб-архив занес в базу лишь в 1997 году и выглядела его главная страница тогда так:

Сейчас на все про все (включая аудио, видео и отсканированные книги) у этой некоммерческой организации задействовано дисковое пространство чудовищных размеров, измеряемое десяткой с пятнадцатью нулями байт. Сайт имеет зеркала в различных дата центрах, а сам проект с недавних пор получил официальный статус библиотеки. Если рассматривать только архив страниц сайтов, то их уже там насчитывается около ста миллиардов (тут учитываются все слепки страниц когда-либо снятые и сохраненные).

По архивам можно перемещаться и с помощью временной шкалы расположенной вверху страницы, где вертикальными черными черточками отмечены имеющиеся для этого сайта слепки. Иногда, веб-архивы могут быть битыми, тогда придется открыть ближайший к нему слепок.

Щелкнув по голубому кружочку мы можем увидеть ссылки на несколько архивов, отличающихся временем их снятия.

Возможно, что это делается во избежании потери данных за счет неизбежной порчи жестких дисков в хранилищах. Перейдя к просмотру одного из веб-архивов, вы увидите копию своего (в данном примере моего) сайта с работающими внутренними ссылками и подключенным стилевым оформлением. Правда, не идеально работающим.

Например, кое-что из дизайна у меня все же перекосило и боковое меню работающее на ДжаваСкрипте полностью исчезло:

Но это не столь важно, ибо в исходном коде страницы с web.archive.org это меню, естественно, присутствует. Однако, просто так скопировать текст этой страницы к себе на сайт взамен утерянной не получится. Почему? Да потому что путешествие внутри сайта из прошлого будет возможно лишь в случае замены всех внутренних ссылок на те, что генерит Webarchive (в противном случае вас перебросило бы на современную версию ресурса).

Понятно, что можно будет вручную отсечь вступительную часть ссылок (http://web.archive.org/web/20111013120145/), получив таким образом рабочий вариант. Можно этот процесс даже автоматизировать с помощью инструмента поиска и замены редактора Notepad , но еще проще будет воспользоваться встроенной в этот сервис возможностью замены внутренних ссылок на оригинальные .

Для этого копируете адрес страницы с нужным слепком вашего сайта (из адресной строки браузера - начинается с http://web.archive.org/). Он будет иметь примерно такой вид:

И вставляете в него конструкцию «id_» в конце даты (20111013120145), чтобы получилось так:

Теперь измененный адрес обратно возвращаете в адресную строку браузера и жмете на Enter. После этого страница c архивом вашего сайта обновится и все внутренние ссылки станут прямыми. Можно будет копировать текст статьи из исходного кода вебархива.

Понятно, что восстановление таким образом огромного сайта займет чудовищное количество времени, но когда другого варианта нет, то и такой покажется манной небесной. К тому же, страдают невозвратной потерей контента обычно только начинающие вебмастера, у которых этого самого контента было мало, а более-менее опытные сайтовладельцы, уж не раз обжигавшиеся на подобных вещах, делают бэкапы файлов и базы по пять раз на дню.

Если вы захотите увидеть все страницы вашего (или чужого) сайта, которые содержатся в недрах этого мастодонта, то вам нужно будет вставить в адресную строку браузера следующий адрес и нажать Enter:

Вместо моего домена можно использовать свой. На открывшейся странице вы получите возможность наложить фильтр в предназначенной для этого форме:

Как вытянуть из Webarchive уникальный контент для сайта

Описанный ниже способ лично я не использовал, но чисто теоретически все должно работать. Саму идею я почерпнул на этом молодом ресурсе , где и были описаны все шаги. Принцип метода состоит в том, что каждый день умирают и никогда не возрождаются десятки сайтов.

Причин этому может быть много и большинство из почивших в бозе ресурсов никакой особой ценности в плане контента никогда и не представляли. Но из всякого правила бывают исключения и нужно будет всего-навсего отделить зерна от плевел. Главное чтобы исчезнувшие сайты с более-менее удобоваримым контентом были бы представлены в Web Archive, хотя бы одной копией.

Т.к. после смерти контент этих сайтов постепенно выпадет из индекса поисковых систем, то взяв его из интернет-архива вы, по идее, станете его законным владельцем и первоисточником для поисковых систем. Замечательно, если будет именно так (есть вариант, что еще при жизни ресурса его нещадно могли откопипастить). Но кроме проблемы уникальности текстов, существует проблема их отыскания.

Во-первых, нам нужен список сайтов, которые скоро умрут или уже померли . Автор метода предлагает скачать с сайта регистратора доменных имен Nic.ru список освобождающихся или уже освободившихся доменов .

Что примечательно, в последней колонке этого списка (его можно открыть в Excel) будет отображаться количество архивов, созданных для каждого сайта в Web Archive (правда, проверить наличие домена в веб-архиве можно и в ряде онлайн сервисов, например, на этом или на этом).

Список буржуйских доменных имен, освобождающихся или уже освободившихся, предлагается скачать по этой ссылке . Ну, а дальше просматриваем содержимое сайтов, которое сохранил Web Archive и пытаемся найти что-то стоящее. Потом проверяем уникальность этих материалов (ссылку приводил чуть выше) и в случае удачи публикуем их на своем ресурсе, либо продаем в какой-нибудь бирже контента .

Да, способ муторный и мною лично не проверенный. Но, думаю, что при некоторой степени автоматизации и обмозговывания он может давать неплохой выхлоп. Наверное, кто-нибудь уже это поставил на поток. А вы как думаете?

Приветствую вас, любознательные читатели блога сайт! Недавно я рассказывал, что такое Википедия. Это виртуальная энциклопедия, которая завоевала всенародную любовь. Невзирая на то, что она постоянно подвергается критике со стороны ученых мужей

Одно то, что этот проект вот уже не один десяток лет «пашет» на пользу всего прогрессивного человечества, питает его полезной информацией на безвозмездной основе, заслуживает большого уважения и длинных дифирамбов.

Но в сети есть еще один некоммерческий проект, не менее грандиозный – web.archive.org. Он создан, чтобы надежно хранить сайты, печатные материалы, аудио и видеопродукцию. Все, чем сегодня наполнен интернет. И то, что было во всемирной паутине много лет назад. Разве такое возможно?

Да. Более того, сайты архивируются не в виде мертвых скриншотов. Они реально работают! На веб-страницах имеются все картинки, ссылки, сохраняется стилевое оформление CSS. Сайты в веб-архиве имеют еще и сотни копий. Они накопились за все время, пока сайты еще функционировали, и содержат всю их эволюцию, от рождения и до последнего вздоха.

Какую пользу веб-архив сайтов может дать лично вам?

Вы можете отправиться в путешествие по страничкам сайта вашей юности, поностальгировать. Проследить, как изменялся и развивался не только ваш, но и любой другой сайт в интернете. К примеру, материалы для своих статей о поисковой системе Апорт, которая уже приказала долго жить, я брал как раз в этом веб-архиве сайтов, в его потаенных закромах. И все скриншоты, наглядно показывающие хронологию главной страницы всеми любимого Яндекса, взяты оттуда же.

Следующий сюрприз. Допустим, вы добавили в закладку сайт, а в нем страница не открывается. Тогда вы обращаетесь к Гуглу или Яндексу, пытаясь извлечь страницу из кеша (изучите информацию о том, как эффективнее искать что-либо в Google – пригодится!). Но если к вашему ресурсу уже давно нет доступа, мертвые ссылки оживить поможет только archive.org. Хотя и там этот ресурс может отсутствовать. Почему? Об этом напишу чуть далее по тексту.

Если звезды сошлись так, что вы не сделали резервную копию своего сайта (бэкап), то вы сможете восстановить его из web archive. И это будет единственный способ решить проблему. При этом можно убрать из ссылок все привязки к web.archive.org, они могут стать прямыми для вашего сайта. Более подробно о ссылках и привязках читайте ниже.

И еще одно полезное свойство веб-архива сайтов. Он дает доступ к поиску готовых уникальных текстов. Если написание статей – не ваше призвание, то здесь вы найдете их целые залежи, настоящие Клондайк и Эльдорадо, вместе взятые! Но чтобы ими разжиться, кое-какие телодвижения совершить все же придется.

Мертвые сайты с их внутренним наполнением недоступны в действующей сети интернета. Но вы можете зайти в веб-архив, отыскать нужные вам тексты и вытащить их с того света. А затем прогнать через проверку на уникальность и опубликовать на своих страницах. Никто не обвинит вас в воровстве (плагиате) и нарушении авторских прав в копирайтинге. Однако этот увлекательный поиск некоторым может показаться долгим и тернистым.

Webarchive появился в интернете, страшно сказать – в далеком 1996 году! Еще в прошлом веке. На то время задача, стоящая перед разработчиками проекта, казалась архисложной, как говорил вождь мирового пролетариата. Несмотря на то, что интернет тогда еще не вошел в полную силу, сайтов было в сотни и тысячи раз меньше. И архивировались они гораздо реже. Как говорится, миссия невыполнима. Но мало-помалу, постепенно увеличивая вместимость своих «сусеков» и «кладовых», сервис успешно копировал и резервировал сайты.

Уже в следующем, 1997 году Webarchive поместил в базу сам себя. Посмотрите, как выглядела его главная страница более двадцати лет назад:

Сейчас вся информация веб-архива занимает дисковое пространство объемом в 10 15 Тбайт. Это гигантское число носит название квадриллион. Чтобы вам было легче его представить – примерно столько муравьев живет во всех муравейниках нашей планеты. Сервис Web.archive.org имеет официальный статус библиотеки. У него зеркала во многих центрах хранения и обработки данных.
Если считать только архивы разных интернет-страниц, то их количество уже приближается к ста миллиардам. В это число входят все копии, которые были хоть однажды сняты и сохранены.
Wayback Machine (обратная машина). Это архив страниц интернета. Он находится на главной странице сайта и доступен каждому. Здесь же хранятся телевизионные архивы, аудиоматериалы, отсканированные книги:

Просмотр сайта в Web.arhive

Но в данном случае нас интересуют возможности Wayback Machine. В строку формы, которая там имеется, можно вставить URL (адрес вашего сайта или отдельной страницы) или домен сайта, который вам нужен. Перед этим разберитесь с тем, что представляют собой домен и URL , чем они отличаются друг от друга. И тогда вы окажетесь на странице с календариком:

Здесь я вижу, что мой блог в первый раз был за архивирован в марте 2015 г.. Много воды утекло с той памятной даты. За все это время архивное копирование сайта выполнялось 100 раз, и каждую копию можно посмотреть и пощупать, переходя со страницы на страницу (все ссылки работают).

Как открыть мертвые ссылки? Для этого сайт должен находиться в archive.org.

Смотрим на календарь. Цифры в голубых кружочках обозначают даты создания так называемых слепков – веб-архивов сайта. Разумеется, в процессе снятия копии не будут учитываться изменения, которые производились на ресурсе после того, как запущено архивирование. А время его проведения Webarchive устанавливает в соответствии с собственными таймерами и заложенными программами.

Поэтому не всегда имеет смысл использовать веб-архив в качестве способа открытия сайтов, недоступных лишь временно. В Яндексе можно тоже просмотреть их архивы:

Такая же возможность просмотра копий веб-страниц есть и в Гугле:

А к помощи мощного сервиса, о котором идет речь, надо прибегать в случаях, когда в существующем пространстве интернета уже давно нет страниц, которые вы ищете. Но их можно извлечь из дальних закромов, если отправиться туда на машине времени под названием Webarchive .

Но чтобы сайт попал в archive.org, необходимы два условия:

В файле robots.txt должен отсутствовать запрет для его индексации роботом с web.archive.org. Табу прописано следующим образом:

User-agent: ia_archiver

Когда мне понадобилось написать статью об электронной почте mail.ru, я не нашел в веб-архиве никаких копий этого сайта именно по этой причине. В его файле robots.txt как раз был подобный запрет:

Шансы попадания сайта в архивную базу возрастут, если его добавить в каталог под названием Dmoz (УЖЕ НЕ ВОЗМОЖНО ПРАВДА). Также очень хорошо, если на ваш ресурс ссылаются другие хорошо посещаемые сайты, находящиеся в Webarchive. Даже если с главной страницы этого сервиса был сделан простой запрос на ваш сайт, к нему будет привлечено внимание архиватора.

Как найти и восстановить нужный сайт без бэкапа web-архива?

В верхней части страницы расположена временная шкала, с помощью которой можно легко перемещаться по архивам. Слепки, которые есть для этого сайта, обозначены черными вертикальными черточками. Бывает, что веб-архив битый. Тогда надо открыть другой слепок, который находится к нему ближе.

Если мы кликнем по голубому кружочку, то увидим все архивы в пределах выбранной даты:

Может быть, архивирование выполнялось неоднократно в течение суток для более надежного сохранения информации. Жесткие диски не вечны. Если посмотреть любой из веб-архивов, то перед вашим взором предстанет копия сайта (в данном случае моего), со всеми ссылками и переходами. Они работают. Но, как я убедился, не всегда идеально. Особенно часто бывают проблемы с страницами сайтов использующих JS.

Но все это можно пережить, поскольку в начальном коде страницы с сервиса web.archive.org указанное меню никуда не делось. Но взять и скопировать себе на существующий сайт контент с этой страницы не получится. Потому что прогулку по ретро-сайту нельзя совершить без замены всех внутренних ссылок на те, что генерирует Webarchive. Иначе при переходе по ссылкам вы неизбежно окажетесь на страницах современной версии сайта.

Если лень это делать вручную, можно прибегнуть к автоматизации. В этом поможет текстовый редактор Notepad. В него еще встроена автоматическая система, позволяющая заменить внутренние ссылки оригинальными. Воспользоваться ею еще проще.

Для этого нужно всего лишь зайти в адресную строку браузера, которая начинается с http://web.archive.org/. Скопировать из нее адрес страницы, где находится нужный слепок вашего сайта. В моем случае он будет выглядеть так:

После этого надо после даты (20170902102223) поставить две буквы с низкой чертой « id_», и у вас получится такая конструкция:

В таком виде вы вновь вставляете адрес в браузер, после чего давите на клавишу Enter.

К чему приведут все эти действия? Обновится страница с архивом вашего сайта. Все проставленные ссылки будут прямыми. Это даст возможность копировать контент прямо из исходного кода Webarchive.

На восстановление обширного сайта с помощью этого сервиса придется убить уйму времени. Но поскольку других возможностей нет, этот способ можно считать даром небес.

С проблемой безвозвратного исчезновения контента обычно сталкиваются новички. Умудренные опытом владельцы сайтов, неоднократно испытав эту прелесть на себе, во избежание такой ситуации делают резервное копирование своих файлов и всей базы ежедневно. И не один раз, а пять.

Если у вас появится желание просмотреть все страницы сайта (и не обязательно своего), которые спрятаны в этих гигантских вместилищах информации, достаточно будет вбить в строку браузера такой адрес:

Понятно, что вместо моего домена надо вписать тот, который вас интересует. И нажать на клавишу Enter.

Появится страница, на которой вы можете отфильтровать искомую информацию в предложенной форме:

Меня, например, интересовали только текстовые файлы моего блога. Их без предупреждения загрузил Webarchive. Не спрашивайте меня, почему.

Как вытащить из веб-архива уникальный контент для своего сайта?

Способ, о котором сейчас расскажу, я еще не применял на практике. Но работать он должен, так как эту идею я почерпнул из надежного ресурса, хоть и молодого. Метод основывается на том, что ежедневно в интернете уходят в мир иной и никогда не восстают из пепла десятки сайтов.

Содержание большинства этих ресурсов не представляет никакой ценности для тех, кто их создал и забросил, а для других и подавно. Но не исключено, что и среди этой кучи хлама, выброшенного на помойку истории, вы найдете свои золотые самородки. Надо только просматривать исчезнувшие сайты и выбирать приличные тексты. Если в веб-архиве сохранилась хотя бы одна копия такого сайта, этого вполне хватит.

Тексты с мертвых сайтов уже находятся вне поля зрения поисковых систем, (а значит уникален). И вы можете стать законным владельцем такого контента, вытянув его из недр веб-архива. Поисковые системы будут воспринимать его как новый и уникальный. Конечно, если еще при жизни ретро-сайта этот контент не успели жесточайше откопипастить. Поэтому надо всегда проверять его на плагиат.

Но сначала необходимо найти нужный сайт. Авторы метода, о котором я рассказываю, советуют зайти на сайт Nic.ru или Reg.ru. И скачать оттуда перечень освободившихся или освобождающихся доменов. Простыми словами, это сайты, которые уже умерли или собрались в последний путь.

Список представлен в виде примера таблицы. В ее последней колонке видно, сколько архивов каждого сайта имеется в Webarchive. На других сервисах тоже можно проверить, есть ли такие домены в веб-архиве. К примеру, здесь и здесь.

Готовые списки очень быстро становятся бесполезными, по этому лучше подбирать площадки для грабинга веб-архива самому. А потом просмотреть их содержание и выбрать тексты, которые нравятся. Проверить их на плагиат, после чего контент можно смело использовать или на своем сайте, или продать на текстовой бирже.

Да, метод нелегкий но мною уже не раз опробованный. Уверен! Многие после прочтения предыдущего абзаца наверняка сообразили, что при должной сноровке и разумном подходе это дело можно поставить на поток. А потом наслаждаться проливным дождем из денежных купюр. Разве я не прав?

Существует настоящая, реальная машина времени, в которой можно ненадолго вернуться в прошлое и увидеть, например, как выглядел тот или иной сайт несколько лет назад. Думаете, никому не нужны копии сайтов многолетней давности? Ошибаетесь! Для очень многих людей сервис по архивированию информации весьма полезен.

Во-первых, это просто интересно! Из чистого любопытства и от избытка свободного времени можно посмотреть, как выглядел любимый, популярный ресурс на заре его рождения.

Во-вторых, далеко не все владельцы сайтов ведут свои архивы. Знать место, где можно найти информацию, которая была на сайте в какой-то момент, а потом пропала, не просто полезно, а очень важно.

В-третьих, само по себе сравнение является важнейшим методом анализа, который позволяет оценить ход и результаты нашей деятельности. Кстати, при проведении анализа веб-ресурса очень эффективно использовать ряд методов сравнения.

Поэтому наличие уникальнейшего архива веб-страниц интернета позволяет нам получить доступ к огромному количеству аудио-, видео- и текстовых материалов. По утверждению разработчиков, «интернет-архив» хранит больше материалов, чем любая библиотека мира. Мы попали в правильное место!

Что нужно, чтобы найти копии сайтов интернета

Для того, чтобы отправиться в прошлое, нужно перейти на сайт archive.org и воспользоваться поисковой строкой.

Простой поиск в архиве сохраненных сайтов выдает нам ссылки на все сохраненные копии запрашиваемой страницы.

Из этого видно, что сайт сайт был создан в 2012 году (Кстати, важно отметить, с помощью практически идеального хостинга Спринтхост — рекомендую!). Переключаясь на нужный нам год, можно увидеть даты, выделенные кружочками, это и есть даты сохранения копии сайта. Например, в 2015 году, пока можно будет увидеть только одну копию от 7 февраля.

Конечно, это потрясающий ресурс! Ведь здесь индексируются и архивируются все сайты интернета! Это не только скриншоты… Имея в руках такой инструмент, можно восстановить массу потерянной со временем информации.

Надо заметить, что, безусловно все восстановить однозначно не получится, так как если на страницах сайта используются элементы Java Script, или скрипты или графика взяты со стороннего сервера, то на восстановление такой информации рассчитывать не придется. Поэтому к сохранению данных своего сайта нужно относиться с особенным вниманием, несмотря ни на что.

Пользуясь случаем, я сделала скриншоты и восстановила в памяти, как выглядел мой сайт, начиная с 2012 года. Любопытно посмотреть))

Сайт буквально недавно «родился»)) Январь 2012.. .

Проходит время, и хочется что-то изменить… Конец 2012-го.

Наверное, пора уже что-то менять. 2013-й. Это тема, которая и сегодня установлена на моем сайте.

К смене темы отношусь с осторожностью, так как помню последний «переезд», после которого несколько месяцев восстанавливала посещаемость сайта. Как-то не очень удачно получилось.

Надеюсь, что и моим читателям эта замечательная интернет-библиотека — «машина времени» сможет помочь перемещаться во времени, когда они этого захотят. Посмотрите, как выглядели раньше некоторые сайты, еще во времена своего зарождения. Какими раньше были google или яндекс, можно увидеть только на archive.org, аналогов у этого ресурса нет. Приятного путешествия, друзья!

Архивная страница. Как найти уникальный контент с помощью Webarchive Machine

Базовые элементы монтажа в Vegas Pro Вставка шаблонных титров

Как создать, установить и поменять тему на андроид Как создать лаунчер на все телефоны

Где и в каком виде хранится информация

Категории

Последние статьи

Как настроить или поменять дату и время на Android: установка вручную или автосинхронизация

Как настроить дату и время на Android

Как восстановить доступ к папке

Команды Minecraft Сервера Майнкрафт без регистрации

Вконтакте для андроид Последняя версия vk для андроид

Скачать Ложный вызов на андроид v

Как выключить самсунг он завис

Подробный обзор мобильного телефона Samsung S8500 Wave Самсунг wave s8500 cdma поддерживает

Продажи Galaxy S8 в России вдвое выше, чем у предыдущего флагмана Samsung Телефон начинается с дизайна

Реклама

Архивная страница. Как найти уникальный контент с помощью Webarchive Machine

Возможно вам будет интересно:

Категории

Последние статьи

Реклама