Как скачать сайт с web archive org

Wayback Machine Downloader — Скачиваем сайты бесплатно

Однажды потребовалось скачать сайт с web.archive.org. Archivarix.com и r-tools.org не нужны, так как это тот же Wayback Machine Downloader, только платные и работают только через веб-морду. В 2023 году.

Некоторые читатели попытались обвинить меня в предвзятости, мотивируя тем, что Архиварикс — лучший инструмент для восстановления сайтов. Всё аргументы были в сторону cms Архиварикса. И те о том, что она удобная. Поднять отдельный фронтенд для редактирования html-файлов — топ, консоль — слишком сложно.

Кстати, в чём разница между java и javascript? ��

Преимущества Архиварикса

Наверное случайная опечатка висит так много лет.

Рекомендую пойти чуть более сложным, но более гибким способом.

Если вам нужно слить большой сайт с Вебархива, есть терминал и 5 минут на настройку — можно обойтись без сторонних сервисов + бесплатно.

Wayback Machine Downloader

Чтобы скачивать сайты с Вебархива бесплатно воспользуемся бесплатной консольной утилитой Wayback Machine Downloader. Я ставил под macOS, мануал будет под неё же.

Установка Wayback Machine Downloader

Открываем терминал и вводим команду:

sudo gem install wayback_machine_downloader

Как скачать сайт с Вебархива бесплатно

После установки Wayback Machine Downloader вводите команду:

wayback_machine_downloader http://example.com

Где http://example.com — сайт, который нужно скачать.

Параметры для скачивания

-d, —directory PATH: Категория для сохранения загруженных файлов. По умолчанию это ~/websites/ плюс имя домена;
-s, —all-timestamps: Скачать все снимки для данного сайта;
-f, —from TIMESTAMP: Скачать только файлы в указанный момент времени или после него (например 20060716231334);
-t, —to TIMESTAMP: Скачать только файлы в указанной временной метке или до нее (например 20100916231334);
-e, —exact-url: Загружать только указанный url, а не полный сайт;
-o, —only ONLY_FILTER: Ограничить загрузку только теми адресами, которые соответствуют данному фильтру. (используйте нотацию //, чтобы фильтр рассматривался как regex);
-x, —exclude EXCLUDE_FILTER: Пропустить загрузку ссылок, соответствующих этому фильтру (используйте // обозначения для фильтра, чтобы он рассматривался как регекс);
-a, —all: Скачивать файлы ошибок (40x и 50x) и перенаправления (30x);
-c, —concurrency NUMBER: Во сколько потоков скачивать сайт (по умолчани работает в 1 поток);
-p, —maximum-snapshot NUMBER: Максимальное количество снапшотов (по умолчанию 100);
-l, —list: Вывести список адресов файлов в формате JSON с архивными метками времени, ничего не скачивая;
-v, —version: Показать версию Wayback Machine Downloader.

Вопросы в файлах

Всё идеально, только у файлов в заголовке иногда сохраняются get-запросы. Был style.css, стал style.css?ver=666, а у вас в консоли ошибки. Для исправления запустите эту команду, находясь в директории со слитым сайтом.

find . -type f -name '*\?*' -exec sh -c 'mv "$0" "$"' <> \;

У меня не работает/ошибки, что делать?

Не знаю. И по почте не проконсультирую, даже не ждите ответа.

Программа для восстановления сайтов из вебархива.

WebArchive Downloader 6.0 – профессиональное программное обеспечение для скачивания сайта и страниц из интернет архива web.archive.org.

Основные преимущества программы:

Сохраняет все файлы — стили CSS, скрипты, изображения, страницы
Создает внутреннюю перелинковку страниц сайта
Возможны два вида внутренних ссылок: файловые и доменные
Удаляет из текста страниц всю служебную информацию
Восстанавливать сайт из вебархива на конкретную дату
Поддерживает три вида кодировки страниц
Автоматический процесс закачки контента сайта
Сохраняет полную навигацию по сайту

Применяя WebArchive Downloader 6.0 вы выбираете:

Экономию
денег

Автоматизацию
процесса

Больше
времени

Готовый
сайт

Уникальный
контент

Что такое web.archive.org ?

Сайт web.archive.org принадлежит мировому архиву Интернета. Веб архив интернета — это некоммерческая организация занимающаяся сбором копий веб-страниц, изображений и даже видео-, аудио- материалов и предоставляющая доступ к нему на бесплатной основе. Веб архив сайтов создан в 1996 году и на сегодняшний день содержит более 520 млрд копий веб страниц, более 200 тысяч фильмов и 400 тысяч аудио записей и книг. Конечно веб архив не содержит всех копий сайтов, но шанс найти то что вам нужно достаточно высок. Более подробно про работу с веб архивом вы можете прочитать в этом обзоре.

Отличия версий

Скачать Купить	Демо версия	Полная версия
Все виды данных
Все временые метки
Перелинковка файлов
Доступные кодировки
Кол-во запросов в день	50	∞
Сохраняет файлов	10	∞

Кому полезна программа

Копирайтерам

Вебмастерам

SEO-специалистам

«Историкам»

Почему стоит выбрать WebArchive Downloader 6

Скачивайте любое количество копий сайтов из веб архива без ограничений
Получайте уникальные статьи, контент или дизайн бесплатно. Узнай как ?
Сохраните утерянные копии страниц сайта на определенную дату
Получайте готовые сайты при помощи нажатия нескольких кнопок
Не тратте время на поиск и выбор страниц из web архива

Если вы приобрели полную версию программы

Приобретая WebArchive Downloader 6.0, Вы гарантированно получаете:

Лицензию для одного устройства на неограниченны срок использования программы
Все выпускаемые обновления абсолютно бесплатно
Возможность участвовать в развитии проекта и предлагать идеи для реализации

Восстановление сайта из вебархива

Восстановление сайта из Webarchive — инструмент, который позволяет восстановить и скачать полностью сайт или копию из Вебархива (web archive org) за любую дату в формате HTML. Все картинки, стили и скрипты также будут сохранены (кроме подгружаемых с других ресурсов). Есть возможность выбирать даты для каждой конкретной страницы с предпросмотром.

Создание задачи

Вводим название задачи и переходим на следующий шаг к настройкам сбора. Тут есть чекбокс “Выбрать период”, чтобы скачать документы по установленной дате. Если чекбокс не будет активирован — система скачает документ по последней доступной дате.

Рекомендуем не включать этот чекбокс, если вы точно не знаете за какую дату вам нужна копия. Если домен, например, старый и вы точно знаете, за какую дату обновления он нужен, тогда просто выбираете в календаре:

Чекбоксы “Сделать пути относительными” и “Удалить счетчики статистики” рекомендуется всегда оставлять включенными — они помогут избежать различных проблем при переносе копии сайта на ваш сервер.

Далее, переходим на третий шаг и вводим адрес сайта (без http и www), который нужно восстановить из веб-архива и после этого жмем “Добавить домен”:

Важно: на данный момент поддерживаются только задачи по 1 домену, поэтому если вам надо восстановить несколько сайтов, придется создать несколько задач.

Далее нажимаем “Создать новую задачу” и подтверждаем запуск.

Работа с результатами

После запуска, задачи появится на листинге в разделе “Восстановление из Вебархива”. Вы можете проследить за статусом его выполнения. Когда задача будет готова появится кнопка “Скачать”, с помощью которой вы сможете скачать ZIP-архив с копией сайта на свой компьютер и потом загрузить его на хостинг.

Чтобы перейти в задачу и просмотреть результаты, просто нажмите на название задачи. Перед вами откроется список скачанных файлов со столбцами:

Название файла
Тип файлов
Дата сохранения
Действия

Этот список вы можете отсортировать по любому столбцу. Также присутствует форма поиска по названию файла. Вы можете воспользоваться пагинацией или указать сколько результатов выводить на странице.

Вы можете кликнуть по URL-адресам выгруженных файлов — они доступны для просмотра и открываются в новой вкладке (откроется уже сохраненная на нашем сервере копия).

Если какие-то страницы скачались неправильно или не те, то для каждой из них можно выбрать другую дату копии, для этого нужно нажать на иконку рядом с URL и выбрать снепшот за нужную дату.

Если других дат нет — значит в Вебархиве не содержится дополнительных копий выбранной страницы.

Если какой-то URL вам не нужен — просто отключите чек бокс рядом с ним и он не попадет в архив при скачивании.

Дальше, чтобы восстановить сайт на своем сервере скачиваем ZIP-архив с задачи, просматриваем его и распаковываем по FTP в корневую директорию своего домена на хостинге:

После запуска сайта внимательно просмотрите как он работает, пройдитесь по всем страницам, проверьте работоспособность всех ссылок, кнопок, отображение стилей и картинок, так как бывает что в Вебархиве присутствуют не все страницы сайта и нужно что-то подправить.

Как скачать сайт из web.archive.org?

Купил домен, страницы сайта есть только в веб-архиве, их очень много. Если ли способы скачать весь сайт целиком?

Вопрос задан более трёх лет назад
59448 просмотров

1 комментарий

Простой 1 комментарий

Вам нужен Wayback Machine Downloader, вот тут ссылка на хорошую инструкцию.
Решения вопроса 2
archivarix @archivarix

https://ru.archivarix.com/ — система сама оптимизирует скаченный сайт, убирает битые ссылки, неработающие скрипты и прочий мусор.

Ответ написан более трёх лет назад
Нравится 10 5 комментариев
опробовал — нормально скачивает

RukiKryki

Подтверждаю. Я технически далека от всего этого, но их поддержка оказалась на высоте. Мне не только помогли все загрузить, но еще и понятным языком объяснили как редактировать сайт. У них к каждому восстановлению бесплатно идёт Archivarix CMS, где легко можно редактировать сайт, подключить туда свои счётчики и добавлять новые страницы. Спасибо вам.