Przejdź do zawartości

Debian - uniwersalna instalacja/Ściąganie całej strony www na komputer

Z Wikibooks, biblioteki wolnych podręczników.

Wget to program służący do pobierania plików z Internetu za pośrednictwem protokołów HTTP, HTTPS i FTP. Program posiada wiele przydatnych funkcji jak tworzenie kopii lustrzanych archiwów i stron czyli umożliwia ściągnięcie całej strony www na nasz komputer.Aby uruchomić program wget przejdź:


Podgląd -> Programy -> Akcesoria -> Terminal użytkownika root


zostaniesz poproszony o hasło. Teraz jesteśmy w naszym terminalu root


 root@debian-linux:/home/linux#


Przykłady

[edytuj]

Ściąganie zawartości witryny wraz z zachowaniem struktury katalogów (kopia lustrzana strony). W tym wypadku strona zostanie zapisana w katalogu www.strona.pl

 wget -m -p http://www.strona.pl


Ściąganie zawartości tylko określonego katalogu. W tym wypadku zostanie wszystko ściągnięte z katalogu - komputery.

 wget -m -p -np http://www.strona.pl/komputery/

Zapisywanie plików takich jak .asp, czy stron typu http://site.com/article.cgi?25 jako pliki html. W tym przypadku plik ten będzie zapisany jako article.cgi?25.html

 wget -E -p http://site.com/article.cgi?25

Ściąganie kompletnej strony ze wszystkim co się pod nią znajduje

 wget -r -nc -p -E -k -np -N --restrict-file-names=windows -D strona.org -H www.strona.org/html/

Składnia programu wget

[edytuj]

Możemy dodać kilka opcji przed adresem url.

wget opcje adres

Opcje

[edytuj]

Opcja powoduje, że ściągamy zawartość całej witryny wraz z zachowaniem struktury katalogów. Grafika nie zostanie zapisana.

 -m

Ta opcja powoduje, że Wget ściągnie wszystkie pliki niezbędne do poprawnego wyświetlenia danej strony HTML. Obejmuje ona grafikę, dźwięki i powiązane arkusze stylów.

 -p

Poprawia odnośniki do różnych plików po ściągnięciu całej witryny, tak by można było lokalnie przeglądać kopię.

 -k

Nazywa pliki odpowiednio do standardów występujących w Windows. Tak na wszelki wypadek ;)

 --restrict-file-names=windows

Przegląda jedynie pliki z domeny website.org

 -D website.org

Pobiera pełną stronę, rekursywnie

 -r

Nie tworzy plików, jeśli już istnieją

 -nc

Zapisywanie plików takich jak .asp, czy stron typu http://site.com/article.cgi?25 jako pliki html. W tym przypadku plik ten będzie zapisany jako article.cgi?25.html

 -E