Wget как скачать сайт

Скачать сайт целиком, с помощью wget

Wget — это небольшая консольная программа, выполняющая роль загрузчика файлов из Интернета, либо через локальную сеть. Я объясню, как правильно пользоваться wget для закачки целых сайтов с их последующим автономным просмотром. Эта небольшая утилита позволяет загружать сайты, включая изображения, и не требует серьёзных знаний. Достаточно указать адрес ресурса и параметры. Wget будет самостоятельно открывать его по ссылкам, которые есть на сайте и загружать каждую страничку.
Для того чтобы загрузить целый сайт, используя wget, вводим в командную строку следующее сочетание параметров:

Ознакомимся с некоторыми примерами, которые позволят разобраться в том, как использовать Wget, скачивая сайт, начиная от простых и заканчивая сложными вариантами.

wget -r -k -l 7 -p -E -nc http://site.com/

Теперь нажав «Ок», команда отправит в папку site.com скачанную локальную версию заданного сайта http://site.com. Для того чтобы попасть на главную страницу загруженного ресурса, достаточно открыть файл с именем index.html.

Разберёмся, что означают параметры (ключи), которые мы ввели в командную строку:

r – обозначает задачу рекурсивной скачки информации, т.е. осуществляется переход от ссылке к ссылке, чтобы скачать все страницы заданного сайта
k – параметр, отвечающий за процесс преобразования всех загруженных ссылок так, чтобы на локальном ПК их можно было автономно просматривать
p – даёт команду загружать все инструменты, необходимые для показа страницы в формате html (графические изображения, css, стили и прочее)
l – ключ задаёт глубину загрузки вложенности ссылок, которые скачивает Wget (в нашем случае их 7, обычно ставят 5 по умолчанию; это обозначение даёт возможность утилите «не закопаться» с загрузкой новых ссылок; чтобы избежать этого используют -l
E – этот ключ всегда следует вписывать туда, где есть .html-формат файлов
nc – параметр избавляет Wget-программу заново записывать загруженные файлы, если закачка была прервана

Итак, мы познакомились только с малым арсеналом возможностей менеджера загрузок Wget. Однако за счёт множества дополнительных ключей и параметров, способности утилиты гораздо больше и её применение более широкое. Если хотите получить подробную информацию, вызовите программное руководство, задав в строке команду: man wget.

Как выкачать весь сайт?

Я хочу скачать весь определенный сайт, вместо того чтобы использовать Настройки — Сохранить страницу как, тем самым сохраняя по одной странице, это долго, а мне нужно скачать весь сайт.
Как это сделать?

Вопрос задан более трёх лет назад
34045 просмотров

1 комментарий

Средний 1 комментарий

delphinpro

Сергей delphinpro @delphinpro
Решения вопроса 0
Ответы на вопрос 3
wget -r -k -l 7 -p -E -nc http://site.com/
Ответ написан более трёх лет назад
Нравится 9 3 комментария

AskMy

всё верно , только эта команда работает в linux , поясните в ответе это

ink, отнюдь. и в *BSD работает. И в Windows, достаточно скачать UnxUtils. В MacOS X — не совру, но скорее всего, есть родная.

AskMy

latush, про это я не знал .. сорри
xmoonlight @xmoonlight
https://sitecoder.blogspot.com

Чтобы скачать сайт целиком с помощью wget нужно выполнить команду:
wget -r -k -l 7 -p -E -nc http://site.com/

После выполнения данной команды в директорию site.com будет загружена локальная копия сайта site.com. Чтобы открыть главную страницу сайта нужно открыть файл index.html.
Рассмотрим используемые параметры:
-r — указывает на то, что нужно рекурсивно переходить по ссылкам на сайте, чтобы скачивать страницы.
-k — используется для того, чтобы wget преобразовал все ссылки в скаченных файлах таким образом, чтобы по ним можно было переходить на локальном компьютере (в автономном режиме).
-p — указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.).
-l — определяет максимальную глубину вложенности страниц, которые wget должен скачать (по умолчанию значение равно 5, в примере мы установили 7). В большинстве случаев сайты имеют страницы с большой степенью вложенности и wget может просто «закопаться», скачивая новые страницы. Чтобы этого не произошло можно использовать параметр -l.
-E — добавлять к загруженным файлам расширение .html.
-nc — при использовании данного параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз.

Как скачать весь сайт при помощи Wget на Windows

Вы узнаете, как архивировать практически любой богатый информацией сайт для создания автономной версии для себя. Бесплатная, кроссплатформенная утилита командной строки wget может загрузить весь веб-сайт. Статья проведет вас через весь процесс. Я начну с нуля, а затем перейду к подробным примерам выбранных настроек, чтобы получить превосходный архив после обработки. После прочтения этого урока он станет намного менее пугающим, чем кажется.

Почему вы хотите это сделать?

Вопреки распространенному мнению, не все в Интернете существует всегда. Сайты закрываются, подвергаются цензуре, приобретаются, перепроектируются или просто теряются. Эта идея исходит от сообщества накопителей данных в Reddit, где процесс создания архивов для развлечения не является чем-то новым. Хотя мы не можем предсказать или предотвратить катастрофическое событие на нашем любимом веб-сайте, мы, несомненно, можем сохранить его в нынешнем виде .

Есть много возможных применений и причин, по которым можно скачать весь сайт. Неважно, является ли целевой сайт вашим или нет. На заметку, будьте осторожны с тем, что вы загружаете Возможно, вы хотите сохранить эпоху сайта с особым дизайном. Может быть, вы хотите взять информативный веб-сайт с собой в место без интернета. Этот метод может гарантировать, что сайт останется с вами.

Как это работает?

Wget будет начинать с определенного URL и посещать каждую ссылку, возвращаясь к бесконечной глубине. В конечном итоге он может сканировать весь сайт. То, как я его настроил, гарантирует, что он будет загружать только весь сайт, а не весь интернет – случайно . Другими словами, он не будет бродить по внешним сайтам и ничего не загружать с них. Вы получите все активы, такие как JS, CSS и изображения. Конечно, и все внутренние ссылки будут преобразованы в относительные ссылки. Последнее имеет жизненно важное значение для просмотра в автономном режиме копии, а исключенные или внешние ссылки остаются неизменными.

Обратите внимание, что архив не является резервной копией, и вы не можете восстановить свой сайт из него. Описанный метод использует обход контента, как и поисковая система. Он найдет только те страницы, на которые ссылаются другие. Как побочный эффект, вы увидите важность использования внутренних ссылок на сайте для соединения фрагментов контента, чтобы помочь роботам сканировать ваш сайт.

Я знаю, что это не относится строго к WordPress, но работает исключительно хорошо с блогами, использующими эту платформу. Тот факт, что блоггер использует некоторые стандартные виджеты WordPress на боковой панели (например, ежемесячный архив или облако тегов), очень помогает ботам.

Настройка wget в Windows

В то время как субкультура, использующая wget ежедневно, сильно ориентирована на Unix, использование wget в Windows немного более необычно. Если вы попытаетесь найти его и вслепую загрузить с официального сайта, вы получите кучу исходных файлов, а не файл .exe. Средний пользователь Windows хочет двоичные файлы , поэтому:

Получите последнюю версию wget для Windows, выберите zip-версию последней версии и распакуйте ее куда-нибудь. Я использую папку для переносимого программного обеспечения, так как это не требует установки.

Если вы попытаетесь открыть файл .exe, скорее всего, ничего не произойдет, просто вспышка командной строки. Я хочу получить доступ к этому wget.exe, имея открытую командную строку в папке, в которую я буду загружать весь архив веб-сайта. Нецелесообразно перемещать .exe туда и копировать его в любую другую папку архива в будущем, поэтому я хочу, чтобы он был доступен для всей системы . Поэтому я «регистрирую» его, добавляя в переменные среды Windows.

"C:Windowssystem32rundll32.exe" sysdm.cpl,EditEnvironmentVariables

Нажмите Windows + R, вставьте указанную выше строку и нажмите Enter
Под Пользовательскими переменными найдите Путь и нажмите Редактировать…
Нажмите New и добавьте полный путь к тому месту, куда вы извлекли wget.exe
Нажмите ОК, ОК, чтобы закрыть все

Чтобы убедиться, что он работает, снова нажмите Windows+ Rи вставьте cmd /k «wget -V» – он не должен сказать, что «wget» не распознан

Wget на Windows

Настройка wget для загрузки всего сайта

Большинство настроек имеют короткую версию, но я не собираюсь их запоминать или вводить. Более длинное имя, вероятно, более значимое и узнаваемое. Я выбрал эти конкретные настройки из подробного руководства по wget, так что вам не нужно погружаться слишком глубоко, так как это относительно длинное чтение. Проверьте официальное описание этих настроек, если хотите, так как здесь я только разделяю свое мнение и почему я их выбрал. В порядке важности, вот они.

Настройки для использования

—mirror

Это набор других специфических настроек, все, что вам нужно знать, это волшебное слово, которое позволяет бесконечное сканирование рекурсии. Звучит необычно? Потому что это! Без этого вы не сможете скачать весь сайт, потому что у вас, вероятно, нет списка каждой статьи.

—page-requisites

При этом wget загружает все ресурсы, на которые ссылаются страницы, такие как CSS, JS и изображения. Это важно использовать, иначе ваш архив будет очень поврежден.

—convert-links

Это позволяет просматривать ваш архив локально. Это влияет на каждую ссылку, которая указывает на страницу, которая будет загружена.

—adjust-extension

Представьте, что вы сделали все возможное, чтобы загрузить весь веб-сайт, чтобы получить неиспользуемые данные. Если файлы не заканчиваются в своих естественных расширениях, вы или ваш браузер не сможете их открыть. В настоящее время большинство ссылок не содержат суффикс .html, хотя они должны быть .html файлами при загрузке. Этот параметр помогает вам открывать страницы, не размещая архив на сервере. Небольшое предостережение в том, что оно пытается быть умным, чтобы определить, какое расширение использовать, и оно не идеально. Если вы не используете следующую настройку, контент, отправляемый через gzip, может закончиться довольно непригодным расширением .gz.

—compression=auto

Я обнаружил, что при работе с ресурсами, сжатыми gzip, такими как изображение SVG, отправленное сервером, это исключает возможность загрузки, такого контента как logo.svg.gz, который практически невозможно загрузить локально. Объединить с предыдущей настройкой. Обратите внимание, что если вы используете Unix, этот переключатель может отсутствовать в вашем wget, даже если вы используете последнюю версию. Подробнее на Как может отсутствовать сжатие в моем wget?

—reject-regex «/search|/rss»

Боты могут сойти с ума, когда они достигают интерактивных частей веб-сайтов и находят странные запросы для поиска. Вы можете отклонить любой URL, содержащий определенные слова, чтобы предотвратить загрузку определенных частей сайта . Скорее всего, вы обнаружите только то, что должны были удалить после того, как wget потерпит неудачу хотя бы один раз. Для меня это породило слишком длинные имена файлов, и все это застыло. Хотя статьи на сайте имеют хорошие короткие URL-адреса, длинная строка запроса в URL-адресе может привести к длинным именам файлов. Регулярное выражение здесь является «основным» регулярным выражением POSIX.так что я бы не стал зацикливаться на правилах. Кроме того, это довольно сложно проверить методом проб и ошибок. Одна хитрость заключается в том, что шаблон / поиск будет даже соответствовать законной статье с URL yoursite.com/search-for-extraterrestrial-life или аналогичным. Если это проблема, то будьте более конкретны.

Дополнительные настройки

—no-if-modified-since

Я включаю его только когда сталкиваюсь с сервером, на котором wget жаловался на то, что мне следует использовать это. Я не собираюсь перезапускать процесс позже в той же папке, чтобы догнать текущий сайт. Следовательно, не имеет большого значения, как wget проверяет, изменились ли файлы на сервере.

—no-check-certificate

Проверка сертификатов SSL не является критически важной задачей . Это предотвращает некоторые головные боли, когда вы заботитесь только о загрузке всего сайта без входа в систему.

—user-agent

--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"

Некоторые хосты могут обнаружить, что вы используете wget для загрузки всего сайта и полностью блокируете вас. Спуфинг агента пользователя приятно замаскировать эту процедуру как обычного пользователя Chrome. Если сайт блокирует ваш IP, следующим шагом будет продолжение работы через VPN и использование нескольких виртуальных машин для загрузки стратифицированных частей целевого сайта (ой). Возможно, вы захотите проверить —wait и —random-wait варианты, если ваш сервер умный, и вам нужно замедлить и задержать запросы.

—restrict-file-names=windows

В Windows это автоматически используется для ограничения символов файлов архива безопасными для Windows. Однако, если вы работаете в Unix, но планируете просмотреть позже в Windows, то вы хотите явно использовать этот параметр. Unix более простителен для специальных символов в именах файлов .

—backup-converted

Стоит упомянуть, поскольку он будет сохранять оригинальную копию каждого файла, в который wget конвертировал ссылку . Это может почти удвоить ваш архив и требует очистки, если вы уверены, что все в порядке. Я бы не стал этим пользоваться.

Открытие командной строки в нужном месте

Вам нужно будет запустить wget из командной строки, которая работает с папкой, в которую вы собираетесь загрузить весь сайт. Для этого есть несколько способов, начиная с самого стандартного:

Вы знаете тренировку: Windows+ Rи напишите cmd и нажмитеEnter
Тип, cd /d C:archive folder где /d коммутатор позволяет менять диски, а последний – путь к архиву.

Если вы хотите узнать, как cd работает, введите help cd запрос. В некоторых конфигурациях необходимо заключать путь в кавычки, если он имеет пробел.

Дополнительные способы

Чтобы сделать это за меньшее количество шагов: Windows+ R затем cmd /k «cd /d C:archive folder»
Если вы используете Total Commander, откройте меню «Команды»> «Запустить командную оболочку».
Получите запись «Открыть командное окно здесь» в контекстном меню проводника, используя файл .reg.

Запуск загрузки

Как только я объединю все варианты, у меня появляется этот монстр . Это можно выразить более лаконично, используя варианты с одной буквой. Тем не менее, я хотел, чтобы его было легко модифицировать, сохраняя длинные имена опций, чтобы вы могли интерпретировать, какие они есть.

wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search|/rss" --no-if-modified-since --no-check-certificate --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" https://yoursite.com

Осталось только запустить эту команду для загрузки всего сайта. Приспособьте это к своим потребностям: по крайней мере измените URL в конце этого. Будьте готовы, что это может занять часы, даже дни – в зависимости от размера целевого сайта. И вы не видите прогресса, так как только задним числом можно понять размер архива.

Я не шучу, когда предупреждаю о множестве маленьких файлов.

Пример размера архива при загрузке всего сайта с помощью wget.

На больших сайтах с десятками или даже сотнями тысяч файлов, статей, вы можете сохранить их на SSD до завершения процесса, чтобы не допустить уничтожения вашего жесткого диска. Они лучше справляются со многими небольшими файлами. Я рекомендую стабильное подключение к Интернету (желательно не беспроводное) вместе с компьютером, который может обеспечить необходимое время безотказной работы. Приближаясь к завершению, вы увидите, что wget конвертирует ссылки в файлы. Что-то вроде:

Converted links in 35862 files in 187 seconds.

После этого вы должны получить обратно командную строку со строкой ввода. Если он останавливается рано, желательно изменить настройки и начать все заново в пустой папке.

Постобработка архива

К сожалению, ни одна автоматизированная система не является идеальной, особенно если ваша цель – загрузить весь сайт. Вы можете столкнуться с некоторыми небольшими проблемами. Откройте заархивированную версию страницы и сравните ее рядом с живой. Там не должно быть существенных различий. Я удовлетворен, если весь текстовый контент там с изображениями. Гораздо меньше волнует, работают ли динамические части или нет. Здесь я рассматриваю наихудший сценарий, когда изображения отсутствуют.

Современные сайты используют srcset атрибут и тег для загрузки адаптивных изображений. Хотя wget постоянно совершенствуется, его возможности отстают от передовых технологий современного Интернета. Хотя в wget версии 1.18 добавлена поддержка, ей не нравится более экзотическая комбинация тегов. Это приводит к тому, что wget только находит запасное изображение в теге img, а не в любом из исходных тегов. Он не загружает их и не затрагивает их URL. Обходной путь для этого состоит в массовом поиске и замене (удалении) этих тегов, поэтому резервное изображение все еще может появиться. < picture >. < /picture >srcset« < picture > < source > < img > < /picture >

Получить последнюю версию grepWin – я рекомендую портативную версию.
Добавить папку архива в Поиск в
Выберите Regex search и Search для:
Добавить * .html в имена файлов совпадают:
Нажмите « Заменить» (вы можете проверить, что он что-то находит с помощью функции « Поиск» )

Вы можете использовать grepWin как, чтобы исправить другие повторяющиеся проблемы . Одна статья не может подготовить вас ко всему и не научит вас регулярным выражениям (подсказка: в них нет ничего регулярного ). Таким образом, этот раздел просто дает вам представление о корректировке результатов. Подход Windows не подходит для расширенной пост-обработки. В Unix-подобных системах есть более удобные инструменты для массовой обработки текста, такие как sed и оригинальный grep .

Возможная альтернатива без рекурсивной загрузки

Если вы хотите загрузить значительную часть сайта со всеми упомянутыми преимуществами, но без рекурсивного сканирования, вот другое решение. Wget может принять список ссылок для автономного использования. Как вы пришли к этому списку, зависит от вас, но вот идея.

Используйте расширенный поиск Google особым образом, чтобы определить страницы, которые вам нравятся, с целевого сайта. Примером поиска может быть site:yoursite.com «About John Doe» возвращение проиндексированных сообщений, написанных этим Автором (если на месте нет способа добраться до этого списка). Предполагается, что под статьей есть поле об этом авторе. Временно изменяя страницу результатов поиска Google, чтобы отображать до 100 результатов на страницу, в сочетании с таким расширением, как Copy Links for Chrome, вы можете быстро собрать свой список.

wget --input-file=links.txt --page-requisites --convert-links --adjust-extension --compression=auto --no-if-modified-since --no-check-certificate --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"

Я добавил —input-file=links.txt при сбросе —mirror —reject-regex настроек.

Заключительные мысли

Теперь, когда у вас есть некоторое представление о том, как загрузить весь веб-сайт, вы можете узнать, как обращаться с таким архивом. Множество крошечных файлов – это смерть многих систем, а это означает, что их передача, резервное копирование или проверка на вирусы будут крайне медленными , особенно если вы не храните их на SSD. Если вы не хотите активно просматривать архив, я рекомендую сжать его. Основная причина не в космических требованиях. Наличие архива в виде одного большого файла или серии больших файлов делает его более управляемым. Вы можете использовать RAR’s Store или метод Fastest Compression для быстрого создания пакета. Если контент в основном не текстовый, он может не выиграть от дополнительного сжатия. Наличие записи восстановления в архиве RAR (не добавлен по умолчанию) помогает в случае аппаратных сбоев, таких как сбойные сектора или другие повреждения данных во время хранения или передачи.

Использовать ваш архив довольно просто, просто откройте любой HTML- файл и начните просмотр сайта. Внешние ресурсы, такие как кнопки социальных сетей, будут по-прежнему загружаться из своего исходного местоположения. В случае, если вы действительно просматриваете в автономном режиме, они не смогут загрузить. Надеюсь, они не будут слишком сильно мешать вашему опыту.

Пожалуйста, поймите, что каждый сервер отличается и то, что работает на одном, может быть совершенно не так для другого. Это отправная точка. Существует еще много информации об архивации сайтов. Удачи вам в накоплении данных!

Как скачать сайт целиком

В Lunux на первый взгляд простые команды (которые и запускаются-то просто в командной строке) несут в себе огромный скрытый понетциал и возможности.

Сегодня рассмотрим одну из областей применения команды wget. С помощью wget можно скачивать сайты, включая картинки, всего лишь указав адрес сайта и определенные параметры. wget будет автоматически переходить по ссылкам на сайте и скачивать страницу за страницей. Это позволит, например, просматривать скаченный сайт в автономном режиме.

Как скачать сайт целиком

Чтобы скачать сайт целиком с помощью wget нужно выполнить команду:
wget —user-agent=’Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)’ -r -l 8 -k -i -p -E -F -e robots=off https://сайт-который-надо-скачать

После выполнения данной команды в директорию «сайт-который-надо-скачать» будет загружена локальная копия сайта https://сайт-который-надо-скачать Чтобы зайти на скаченный сайт, достаточно открыть главную страницу сайта (файл index.html).

Рассмотрим некоторые используемые параметры:
-r — указывает на то, что нужно рекурсивно переходить по ссылкам на сайте, чтобы скачивать страницы.
-k — используется для того, чтобы wget преобразовал все ссылки в скаченных файлах таким образом, чтобы по ним можно было переходить на локальном компьютере (в автономном режиме).
-p — указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.).
-l — определяет максимальную глубину вложенности страниц, которые wget должен скачать (по умолчанию значение равно 5, в примере мы установили 8). В большинстве случаев сайты имеют страницы с большой степенью вложенности и wget может просто «закопаться», скачивая новые страницы. Чтобы этого не произошло можно использовать параметр -l.
-E — добавлять к загруженным файлам расширение .html.
-nc — при использовании данного параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз.
—user-agent= — этот парметр позволяет при обращении к сайту определять программу wget как обычный браузер

Возможности применения утилиты wget не ограничиваются вышеописанным примером. На самом деле область применения wget значительно шире и wget обладает большим числом дополнительных параметров.

GNU Wget 1.20.3 программа для загрузки файлов из сети в автономном режиме.
Использование: wget [ПАРАМЕТР]. [URL].

Обязательные аргументы для длинных параметров являются обязательными и для коротких параметров.

Запуск:
-V, —version показать версию Wget и завершить работу
-h, —help показать эту справку
-b, —background после запуска перейти в фоновый режим
-e, —execute=КОМАНДА выполнить команду в стиле «.wgetrc».

Журналирование и входной файл:
-o, —output-file=ФАЙЛ записывать сообщения в ФАЙЛ.
-a, —append-output=ФАЙЛ дописывать сообщения в конец ФАЙЛА.
-d, —debug показать много отладочной информации
-q, —quiet ничего не выводить
-v, —verbose показывать подробные сведения (по умолчанию).
-nv, —no-verbose отключить вывод подробных сведений (не полностью)
—report-speed=TYPE Output bandwidth as TYPE. TYPE can be bits.
-i, —input-file=ФАЙЛ загрузить URL-ы согласно локальному
или внешнему ФАЙЛУ.
-F, —force-html считать, что входной файл — HTML.
-B, —base=URL считать, что ссылки из входного файла (-i -F)
указаны относительно URL.
—config=FILE Specify config file to use.

Загрузка:
-t, —tries=ЧИСЛО установить ЧИСЛО повторных попыток
(0 без ограничения).
—retry-connrefused повторять, даже если в подключении отказано.
-O, —output-document=ФАЙЛ записывать документы в ФАЙЛ.
-nc, —no-clobber skip downloads that would download to
existing files (overwriting them).
-c, —continue возобновить загрузку частично загруженного
файла.
—progress=ТИП выбрать тип индикатора выполнения.
-N, —timestamping не загружать повторно файлы, только если они
не новее, чем локальные.
—no-use-server-timestamps не устанавливать метку времени локальному
файлу, полученную с сервера.
-S, —server-response вывод ответа сервера.
—spider ничего не загружать.
-T, —timeout=СЕКУНДЫ установка значений всех тайм-аутов в СЕКУНДЫ.
—dns-timeout=СЕК установка тайм-аута поиска в DNS в СЕК.
—connect-timeout=СЕК установка тайм-аута подключения в СЕК.
—read-timeout=СЕК установка тайм-аута чтения в СЕК.
-w, —wait=СЕКУНДЫ пауза в СЕКУНДАХ между загрузками
—waitretry=СЕКУНДЫ пауза в 1..СЕКУНДЫ между повторными
попытками загрузки
—random-wait пауза в 0.5*WAIT. 1.5*WAIT секунд
между загрузками.
—no-proxy явно выключить прокси
-Q, —quota=ЧИСЛО установить величину квоты загрузки в ЧИСЛО
—bind-address=АДРЕС привязать АДРЕС (имя компьютера или IP)
локального компьютера
—limit-rate=СКОРОСТЬ ограничить СКОРОСТЬ загрузки
—no-dns-cache отключить кэширования поисковых DNS-запросов
—restrict-file-names=ОС использовать в именах файлов символы,
допустимые в ОС
—ignore-case игнорировать регистр при сопоставлении
файлов и/или каталогов
-4, —inet4-only подключаться только к адресам IPv4
-6, —inet6-only подключаться только к адресам IPv6
—prefer-family=СЕМЕЙСТВО подключаться сначала к адресам указанного
семейства (может быть IPv6, IPv4 или ничего).
—user=ПОЛЬЗОВАТЕЛЬ установить и ftp- и http-пользователя в
ПОЛЬЗОВАТЕЛЬ
—password=ПАРОЛЬ установить и ftp- и http-пароль в ПАРОЛЬ
—ask-password запрашивать пароли.
—no-iri выключить поддержку IRI.
—local-encoding=КДР использовать КДР как локальную кодировку
для IRI
—remote-encoding=КДР использовать КДР как удалённую кодировку
по умолчанию
—unlink remove file before clobber.

Каталоги:
-nd, —no-directories не создавать каталоги.
-x, —force-directories принудительно создавать каталоги.
-nH, —no-host-directories не создавать каталоги как на узле.
—protocol-directories использовать имя протокола в каталогах.
-P, —directory-prefix=ПРЕФИКС сохранять файлы в ПРЕФИКС/.
—cut-dirs=ЧИСЛО игнорировать ЧИСЛО компонентов удалённого
каталога.

Параметры HTTP:
—http-user=ПОЛЬЗОВ. установить http-пользователя в ПОЛЬЗОВАТЕЛЬ.
—http-password=ПАРОЛЬ установить http-пароль в ПАРОЛЬ.
—no-cache отвергать кэшированные сервером данные.
—default-page=ИМЯ Изменить имя страницы по умолчанию (обычно
это «index.html»).
-E, —adjust-extension сохранять документы HTML/CSS с надлежащими
расширениями.
—ignore-length игнорировать поле заголовка «Content-Length».
—header=СТРОКА вставить СТРОКУ между заголовками.
—max-redirect максимально допустимое число перенаправлений
на страницу.
—proxy-user=ПОЛЬЗОВ. установить ПОЛЬЗОВАТЕЛЯ в качестве имени
пользователя для прокси.
—proxy-password=ПАРОЛЬ установить ПАРОЛЬ в качестве пароля для
прокси.
—referer=URL включить в HTTP-запрос заголовок «Referer: URL».
—save-headers сохранять HTTP-заголовки в файл.
-U, —user-agent=АГЕНТ идентифицировать себя как АГЕНТ вместо
Wget/ВЕРСИЯ.
—no-http-keep-alive отключить поддержание активности HTTP
(постоянные подключения).
—no-cookies не использовать кукисы.
—load-cookies=ФАЙЛ загрузить кукисы из ФАЙЛА перед сеансом.
—save-cookies=ФАЙЛ сохранить кукисы в ФАЙЛ после сеанса.
—keep-session-cookies загрузить и сохранить кукисы сеанса
(непостоянные).
—post-data=СТРОКА использовать метод POST; отправка СТРОКИ в
качестве данных.
—post-file=ФАЙЛ использовать метод POST; отправка содержимого
ФАЙЛА.
—content-disposition Учитывать заголовок Content-Disposition
при выборе имён для локальных файлов
(ЭКСПЕРИМЕНТАЛЬНЫЙ).
—content-on-error output the received content on server errors.
—auth-no-challenge отправлять информацию об аутентификации
Basic HTTP не дожидаясь первого ответа
сервера.

Параметры HTTPS (SSL/TLS):
—secure-protocol=ПР выбор безопасного протокола: auto, SSLv2,
SSLv3 или TLSv1.
—no-check-certificate не проверять сертификат сервера.
—certificate=FILE файл сертификата пользователя.
—certificate-type=ТИП тип сертификата пользователя: PEM или DER.
—private-key=ФАЙЛ файл секретного ключа.
—private-key-type=ТИП тип секретного ключа: PEM или DER.
—ca-certificate=ФАЙЛ файл с набором CA.
—ca-directory=КАТ каталог, в котором хранится список CA.
—random-file=ФАЙЛ файл со случайными данными для SSL PRNG.
—egd-file=ФАЙЛ файл, определяющий сокет EGD со случайными данными.

Параметры FTP:
—ftp-user=ПОЛЬЗОВАТЕЛЬ установить ftp-пользователя в ПОЛЬЗОВАТЕЛЬ.
—ftp-password=ПАРОЛЬ установить ftp-пароль в ПАРОЛЬ.
—no-remove-listing не удалять файлы файлы «.listing».
—no-glob выключить маски для имён файлов FTP.
—no-passive-ftp отключить «пассивный» режим передачи.
—preserve-permissions сохранять права доступа удалённых файлов.
—retr-symlinks при рекурсии загружать файлы по ссылкам
(не каталоги).

WARC options:
—warc-file=FILENAME save request/response data to a .warc.gz file.
—warc-header=STRING insert STRING into the warcinfo record.
—warc-max-size=NUMBER set maximum size of WARC files to NUMBER.
—warc-cdx write CDX index files.
—warc-dedup=FILENAME do not store records listed in this CDX file.
—no-warc-compression do not compress WARC files with GZIP.
—no-warc-digests do not calculate SHA1 digests.
—no-warc-keep-log do not store the log file in a WARC record.
—warc-tempdir=DIRECTORY location for temporary files created by the
WARC writer.

Рекурсивная загрузка:
-r, —recursive включение рекурсивной загрузки.
-l, —level=ЧИСЛО глубина рекурсии (inf и 0 — бесконечность).
—delete-after удалять локальные файлы после загрузки.
-k, —convert-links делать ссылки локальными в загруженном
HTML или CSS.
-K, —backup-converted перед преобразованием файла X делать резервную
копию X.orig.
-m, —mirror короткий параметр, эквивалентный
-N -r -l inf —no-remove-listing.
-p, —page-requisites загрузить все изображения и проч., необходимые
для отображения HTML-страницы.
—strict-comments включить строгую (SGML) обработку комментариев
HTML.

Разрешения/запреты при рекурсии:
-A, —accept=СПИСОК список разрешённых расширений,
разделённых запятыми.
-R, —reject=СПИСОК список запрещённых расширений,
разделённых запятыми.
—accept-regex=REGEX regex matching accepted URLs.
—reject-regex=REGEX regex matching rejected URLs.
—regex-type=TYPE regex type (posix|pcre).
-D, —domains=СПИСОК список разрешённых доменов,
разделённых запятыми.
—exclude-domains=СПИСОК список запрещённых доменов,
разделённых запятыми.
—follow-ftp следовать по ссылкам FTP в HTML-документах.
—follow-tags=СПИСОК список используемых тегов HTML,
разделённых запятыми.
—ignore-tags=СПИСОК список игнорируемых тегов HTML,
разделённых запятыми.
-H, —span-hosts заходить на чужие узлы при рекурсии.
-L, —relative следовать только по относительным ссылкам.
-I, —include-directories=СПИСОК список разрешённых каталогов.
—trust-server-names use the name specified by the redirection
url last component.
-X, —exclude-directories=СПИСОК список исключаемых каталогов.
-np, —no-parent не подниматься в родительский каталог.

Wget как скачать сайт

Скачать сайт целиком, с помощью wget

Как выкачать весь сайт?

Как скачать весь сайт при помощи Wget на Windows

Почему вы хотите это сделать?

Как это работает?

Настройка wget в Windows

Настройка wget для загрузки всего сайта

Настройки для использования

—mirror

—page-requisites

—convert-links

—adjust-extension

—compression=auto

—reject-regex «/search|/rss»

Дополнительные настройки

—no-if-modified-since

—no-check-certificate

—user-agent

—restrict-file-names=windows

—backup-converted

Открытие командной строки в нужном месте

Дополнительные способы

Запуск загрузки

Постобработка архива

Возможная альтернатива без рекурсивной загрузки

Заключительные мысли

Как скачать сайт целиком

Добавить комментарий Отменить ответ