Как скачать сайт, используя утилиту wget?
В linux уже имеется встроенная утилита wget
Команда имеет следующий шаблон:
wget опции адрес_ссылки
Параметры команды wget
Список некоторых параметров:
-r — указывает на то, что нужно переходить по ссылкам на сайте, чтобы скачивать все подкаталоги и все файлы в подкаталогах.
-k — преобразует все ссылки в скаченных файлах, чтобы по ним можно было переходить на локальном компьютере в автономном режиме.
-p — указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.).
-l — определяет максимальную глубину вложенности страниц, которые нужно скачать. Обычно сайты имеют страницы с большой степенью вложенности и чтобы wget не начал «закапываться», скачивая страницы, можно использовать этот параметр.
-E — добавлять к загруженным файлам расширение .html.
-nc — указывает на то, что существующие файлы не будут перезаписаны - например, при продолжении ранее прерванной загрузки сайта.
wget для Windows
Для Windows можно скачать архив
После того как скачали архив, в любом месте создаём папку wget, например в C:\Program Files\wget и в эту папку распаковываем всё содержимое скачанного архива.
Запускаем командную строку и пишем:
cd C:\Program Files\wget
После этого запускаем команду:
wget --help
Примеры использования
Некоторые команды:
сделать зеркало сайта:
wget -r https://www.yoursite.com
сделать копию сайта и локализовать ссылки:
wget --convert-links -r https://www.yoursite.com
сделать оффлайн-зеркало с локализацией ссылок:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent https://www.yoursite.com
сохранить зеркало сайта как .html:
wget --html-extension -r https://www.yoursite.com
загрузить изображения:
wget -A "*.jpg" -r https://www.yoursite.com