Pour un particulier, l'utilisation excessive d'une connexion InterNet peut être catastrophique pour ses finances personnelles. Bien que des forfaits InterNet soient envisagés, il faut, pour l'heure, ruser ou ne pas dormir pour surfer à moindre frais. Nous préférerons la première solution qui consiste à récupérer des sites en pleine nuit pour les parcourir ensuite off ligne.
GetWeb est un utilitaire permettant de télécharger entièrement des pages Web en suivant les liens. L'utilitaire est entièrement configurable de manière à limiter le suivi des liens et le volume de données transférées.
Getweb est capable de fonctionner selon trois modes différents. Les deux premiers sont des modes interactifs, un sur la ligne du shell et l'autre sous X. Le troisième mode est beaucoup plus intéressant dans le cas présent. Dans ce mode, on fournit un fichier de configuration contenant les informations nécessaires (URL, filtres, volume de données)....
LE FICHIER DE CONFIGURATION
Le plus simple étant un exemple, voici un fichier commenté. Notez au passage que dans le cas des options à bascule (yes/no), seul le premier caractère est important. Ceci permet de créer un fichier de configuration assez clair :
Ce fichier de configuration sera utilisé avec la commande :
cat fichierdeconfig | GetWeb
Et, bien sûr, il est fortement conseillé de l'inclure dans un shell script de connexion, qui sera, ensuite, inclu à votre crontab pour en automatiser son exécution.
# On définit la cible, adresse IP ou URL
www.gtk.org
# et le port (habituellement 80 pour http)
80
# utilisation d'un proxy, ici non
No proxy
# Dans le cas où la réponse serait Yes, il fau # drait ajouter :
# proxy.fai.com par exemple pour l'adresse du proxy
# 8080 pour le port
# authentification, ici non
No authentification
# Dans le cas où la réponse serait Yes il fau- # drait ajouter :
# nom_utilisateur
# mot_de_passe
# définition de la page principale
/index.html
# Ici commence les options de recherche
Non pour les fichiers dans les répertoires courants uniquement
# Si la précédente option est à Yes, mettez les # deux suivantes en commentaire
Yes pour un téléchargement limité aux sous-répertoires
Yes pour garder la même arborescence
# Profondeur maximale dans les sous-répertoires
5
Yes pour ne pas suivre les liens débutant par http://
# Ici commence les critères de téléchargement
Yes pour suivre les IMG SRC et DYNSRC
Non on ne veut pas les applets
Yes pour suivre les EMBED et les HREF non html
Non on ne veut pas les sons
Yes pour suivre les liens FTP
Yes pour récupérer les objets non-html, peu importe leur place
# Ici commence la sélection par caractères joker
Non pour la sélection
# Dans le cas contraire, on peut utiliser :
# *html
# Image??.jpg
# la dernière sélection DOIT être
# STOP
# On précise le volume maxi des données à transférer en octet
800000
Non on ne veut pas uniquement les mises à jours
Yes pour que le logiciel soit "bavare"
Yes pour avoir des messages détaillés
LIENS
GetWeb Home Page