Recupérez des sites web avec GetWeb

Pour un particulier, l'utilisation excessive d'une connexion InterNet peut être catastrophique pour ses finances personnelles. Bien que des forfaits InterNet soient envisagés, il faut, pour l'heure, ruser ou ne pas dormir pour surfer à moindre frais. Nous préférerons la première solution qui consiste à récupérer des sites en pleine nuit pour les parcourir ensuite off ligne.

 

GetWeb est un utilitaire permettant de télécharger entièrement des pages Web en suivant les liens. L'utilitaire est entièrement configurable de manière à limiter le suivi des liens et le volume de données transférées.

Getweb est capable de fonctionner selon trois modes différents. Les deux premiers sont des modes interactifs, un sur la ligne du shell et l'autre sous X. Le troisième mode est beaucoup plus intéressant dans le cas présent. Dans ce mode, on fournit un fichier de configuration contenant les informations nécessaires (URL, filtres, volume de données)....

LE FICHIER DE CONFIGURATION

Le plus simple étant un exemple, voici un fichier commenté. Notez au passage que dans le cas des options à bascule (yes/no), seul le premier caractère est important. Ceci permet de créer un fichier de configuration assez clair :

Ce fichier de configuration sera utilisé avec la commande :

cat fichierdeconfig | GetWeb

Et, bien sûr, il est fortement conseillé de l'inclure dans un shell script de connexion, qui sera, ensuite, inclu à votre crontab pour en automatiser son exécution.

 

# On définit la cible, adresse IP ou URL

www.gtk.org

# et le port (habituellement 80 pour http)

80

# utilisation d'un proxy, ici non

No proxy

# Dans le cas où la réponse serait Yes, il fau # drait ajouter :

# proxy.fai.com par exemple pour l'adresse du proxy

# 8080 pour le port

# authentification, ici non

No authentification

# Dans le cas où la réponse serait Yes il fau- # drait ajouter :

# nom_utilisateur

# mot_de_passe

# définition de la page principale

/index.html

# Ici commence les options de recherche

Non pour les fichiers dans les répertoires courants uniquement

# Si la précédente option est à Yes, mettez les # deux suivantes en commentaire

Yes pour un téléchargement limité aux sous-répertoires

Yes pour garder la même arborescence

# Profondeur maximale dans les sous-répertoires

5

Yes pour ne pas suivre les liens débutant par http://

# Ici commence les critères de téléchargement

Yes pour suivre les IMG SRC et DYNSRC

Non on ne veut pas les applets

Yes pour suivre les EMBED et les HREF non html

Non on ne veut pas les sons

Yes pour suivre les liens FTP

Yes pour récupérer les objets non-html, peu importe leur place

# Ici commence la sélection par caractères joker

Non pour la sélection

# Dans le cas contraire, on peut utiliser :

# *html

# Image??.jpg

# la dernière sélection DOIT être

# STOP

# On précise le volume maxi des données à transférer en octet

800000

Non on ne veut pas uniquement les mises à jours

Yes pour que le logiciel soit "bavare"

Yes pour avoir des messages détaillés

 

LIENS

GetWeb Home Page

http://www.enfin.com/getweb/


© Copyright 2000 Diamond Editions/Linux magazine France. - Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.1or any later version published by the Free Software Foundation; A copy of the license is included in the section entitled "GNU Free Documentation License".