La société Echo, connue par le grand public pour son moteur de recherche echo.fr devenu PagesWeb et enfin Voilà, a également développé une gamme de logiciels de recherche plein-texte pour sites web dénommée eXtense.
Pour la première fois, la recherche plein-texte dans un site web est considérée comme une fonctionnalité à part entière pouvant être réellement administrée grâce à un logiciel autonome, et ce, même sans connaissances particulières. Jusqu'à présent, les webmasters devaient se contenter des outils mis à la disposition des universités américaines (Harvest, Glimpse...) ou des moteurs " internes " dérivés des moteurs de recherche les plus répandus sur le net (Excite). Ces solutions ne pouvaient pas convenir à toutes les situations, notamment pour les sites à fort contenu (milliers de pages web) et ceux ayant des impératifs de ligne graphique (affichage des logos du moteur).
Avec eXtense Station Pro, la recherche par mots-clefs est digne d'une véritable interface d'administration en html (donc administrable à distance, ce qui est particulièrement intéressant pour les sites hébergés en externe) et permettant de paramétrer entièrement l'indexation et la recherche.
Première nouveauté : la possibilité de définir des sous-domaines d'indexation. Quel que soit l'emplacement physique sur votre serveur de vos fichiers html, Station Pro vous permet de maîtriser la phase d'indexation. Tous les fichiers rencontrés sur le serveur ne sont pas brutalement indexés, seuls les chemins que vous spécifiez sont parcourus par l'indexeur. Inversement, il est possible d'exclure un répertoire, un ensemble de sous-répertoires voire un fichier en particulier dans le processus d'indexation.
Deuxième nouveauté : la recherche ciblée par sous-rubriques. Lorsque l'administrateur de Station Pro procède au paramétrage du module indexeur, il définit librement des classes de documents lui permettant d'opérer un découpage logique de son site. Par exemple, les répertoires /Organismes, /Instituts et /Laboratoires peuvent être regroupés sous la classe " Adresses Utiles ". Après lancement de l'indexation, ce découpage logique se retrouve dans l'interface de recherche qui associe à chaque classe de document une boite à cocher. L'utilisateur peut alors lancer une recherche ciblée sur une ou plusieurs classe(s) en cochant simplement la ou les classe(s) correspondante(s). Cette technique permet d'améliorer encore la qualité des réponses obtenues lors d'une recherche par mots-clefs. Si l'utilisateur décide de lancer la recherche sur l'ensemble des classes, il peut néanmoins choisir d'afficher les réponses triées en fonction de leur classe d'appartenance.
Autre nouveauté, la programmation de la date et de la fréquence de ré-indexation automatique. Le webmaster n'a plus besoin de relancer manuellement l'indexation à chaque fois que son site est mis à jour. La date du processus de ré-indexation est programmable, soit une journée dans la semaine, soit une heure dans la journée...
Disponible dans la dernière version de la RedHat Linux, une version d'évaluation d'eXtense Station Pro vous permettra de découvrir les nombreuses fonctionnalités du logiciel et notamment :
1. Le paramétrage complet de la mise en page de la page de recherche et des pages de réponses. Toutes les parties des pages de réponse (générées dynamiquement) appellent un modèle de présentation que vous avez librement défini : haut et bas de page, liste réponse, réponses suivantes et page sans réponse...
2. La gestion des orthographes déclinées (pour les formes masculins/féminins, singulier/pluriel) et des caractères accentués !
3. La visionneuse permettant de surligner les mots trouvés dans le corps du texte et de positionner le curseur sur la première occurrence,
4. La recherche textuelle associée aux éléments multimédia pour retrouver les images cliquables, les fichiers sons et vidéos présents dans les pages html.
Les utilisateurs familiarisés avec les moteurs de recherche retrouveront aussi la possibilité d'effectuer des requêtes composées (booléens ET, OU, SAUF et recherche de phrases exactes).
Côté performances, eXtense se distingue par sa capacité d'indexation (jusqu'à plusieurs centaines de milliers de fichiers html indexés) et sa rapidité de recherche (environ 10 ms quelle que soit la taille de la base d'index et un nombre de requête simultanées de 25 requêtes/ seconde). A cela une raison simple :
la technologie d'eXtense est issue du moteur Voilà, entièrement développé par Echo, qui se caractérise notamment par ses performances sur des stations de travail standards, contrairement à la plupart des grands moteurs de recherche qui utilisent les plus puissants matériels.
Son indice de pertinence ne se contente pas de compter le nombre d'occurrence du ou des mots dans la page mais tient compte d'un maximum d'éléments html tels que le titre, toutes les balises META, et la charte graphique des mots (taille, gras, italique...). A noter également, la possibilité de générer plusieurs bases d'index à des fins de test du classement des réponses. Rien n'empêche ainsi de s'assurer que des pages particulièrement importantes ressortent effectivement en tête de liste par rapport à certaines requêtes précises avant de mettre le moteur en ligne !
Au-delà de la version Station Pro, la gamme eXtense est de plus en plus répandue sur l'internet francophone à travers la version " On Line ", indépendante du système d'exploitation, puisque fonctionnant par insertion d'une séquence de code Html dans la page d'accueil du site indexé. Elle se distingue notamment par le déroulement en temps réel de l'indexation lors de la première inscription. Aux dernières nouvelles, Echo prévoit d'étendre la gamme eXtense pour répondre aux besoins d'indexation croissants des réseaux intranets (fin février 1999).
A suivre...
Savoir plus
http://www.extense.com
pour tester Station Pro en situation réelle, utilisez la recherche plein-texte du Sénat sur http://www.senat.fr