mercredi, juin 22, 2005

Projet de communauté d'intérêt

Les informations recensées par tout type de moteur de recherche sont très nombreuses. Mettre la main sur un document (web ou d'un système informatique) donné en utilisant un moteur de recherche est une opération fastidieuse. Les moteurs de recherche actuels constituent pourtant les seuls solutions de recherche.

L'algorithmique notamment par les techniques de ranking ne permet pas d'obtenir un niveau suffisant de qualité en matière de recherche de documents. L'essence des communautés d'intérêt naît de ce constat et son objectif est de favoriser la recherche de documents. Une communauté d'intérêt est une organisation virtuelle permettant de rassembler l'expérience de nombreuses personnes afin de la partager.Une communauté d'intérêt peut être adaptée pour les moteurs de recherche. Il s'agit par exemple de construire des ontologies permettant de classer les documents ou encore d'ajouter des informations correspondant à certains mots de recherches (tips).

Exemple :
Une entreprise A dispose d'un moteur de recherche pour référencer ses documents.
Un employé doit prendre en main le projet Machin abandonné l'année passée.
Il effectue une recherche avec les mots "projet MACHIN".
Sur la deuxieme page de résultats il retrouve le document du projet MACHIN.
Grace à la communauté d'intérêt, il peut ramener en première position le document du projet machin pour toutes les recherches contenant le mot "machin" en y ajoutant un commentaire.Les possibilités sont assez illimitées selon l'implémentation de la communauté d'intérêt.

La communauté d'intérêt développée au CETIC vise à construire des onthologies permettant de classer des mots de recherche et des annuaires (collection d'urls). Elle permet également d'associer des messages à certains mots de recherche ce qui permet d'obtenir des informations directement.

Les onthologies et les classements sont obtenu via une pyramide panoptique. C'est une adaptation des théories de Michel Foucault, dans le livre publié en 1975 « Surveiller et punir » où Foucault y développe deux concepts, celui de panoptisme et celui de société disciplinaire. Brièvement, les informations doivent être validées plusieurs fois avant d'être prise en compte par le moteur de recherche, tandis que les mauvaises propositions sont sanctionnées.

mercredi, juin 08, 2005

Moteur de Gogole !

Fier de mon petit plat pays de Belgique et davantage encore de ma ville natale, je vous présente le moteur Gogole Liège : http://www.gogole.be/

A visiter!

mardi, juin 07, 2005

Le spamdexing

Le « spamdexing » désigne tous les moyens pour tromper les moteurs de recherche chargés d'indexer et de classer les sites.

L'article Ces tricheurs qui polluent Google publié sur 01net synthétise efficacement les techniques souvent dénoncées permettant d'améliorer frauduleusement le référencement dans les moteurs de recherche.

Aspell correcteur orthographique

La correction orthographique dans les moteurs de recherche est désormais non pas un plus, mais une incontournable fonctionnalité attendue par les utilisateurs.

Afin de réaliser facilement ce genre de mécanisme, le développeur sera certainement intéressé par GNU Aspell libre et open source.

Actualités moteur de recherche

Les technologies des moteur de recherche continuent définitivement à bouger. Parmis les évènements à signaler on notera :

La sortie de Google Search Appliance et de Google Mini. Il s'agit de deux solutions de recherche prêtes à l'emploi : la première solution s'élève à 27000 euros tandis que l'autre affiche 3000 euros. L'intérêt principal réside dans le caractère prêt à l'emploi du produit. Il s'agit d'une solution rapide à installer et commercialisée déjà aux états unis.

Google toujours, ouvre sa bibliothèque Google Print au grand public. Ce service web encore en test permet d'étendre la recherche aux textes imprimés de nombreuses universités américaines (Harvard, New York, ...). Cela n'est qu'un début, bien que la BNF (France) a refusé l'accès à ses ouvrages et qu'un vaste projet Européen concurrent a été lancé.

DoubleTrust a fait son apparition : dans une première section il affiche les résultats communs à Google et Yahoo. Il affichera également les résultats orphelins de l'un des moteurs.

Netbooster, société européenne, propose des dispositifs de filtrage et de détection de fraude des clics. Ceci afin de lutter contre la fraude des clics sur liens publicitaires, qui représente un danger majeur pour l'économie du Web.

mercredi, juin 01, 2005

N1GE Sun Grid Engine

Je suis cette semaine en formation chez Sun afin de suivre le module de formation "N1 Grid Engine Advanced Administration".

Ce moteur de Grid a ete implemente en parallele avec leur produit open source. Je remarque que leur système est tres bien abouti. Il répond a la plupart des critères attendus pour un systeme de type HPC (high predictable cluster).

Sun annonce que N1GE est un Grid complet pour les Departments Grid et Enterprise Grid, mais ne convient pas en tant que tel pour les Global Grid. Il y a sans doute moyen d'étendre facilement à un global grid en couplant la suite de Sun à un système tel que Globus.

Voici les fonctionnalités importantes de N1GE qui font de lui à mes yeux l'un des meilleurs systèmes :

* Chaque job en exécution est associé avec un slot. Le scheduler n'a pas plus de jobs en exécution que de slots associés avec une file d'attente.
* L'architecture est composée de executable host (noeuds), master, submit hosts, admin hosts, chacune de ces entités pouvant se retrouver sur la meme machine bien entendu.
* N1GE dispose d'un GUI complet !
* A chaque file d'attente peuvent s'attacher des règles de scheduling et d'autres paramètres.
* Il est possible de limiter l'utilisation des ressources. Il est possible de réserver des ressources pour un job. Il est possible de spécifier des ressources pour un job.
* Plusieurs politiques de scheduling sont possibles : FIFO, Posix, Tickets.
* Il est possible de réordonnancer à la volée.
* Les politiques de scheduling permettent de migrer certaines taches à l'aide de technique de checkpointing lorsqu'un évènement défini a lieu (exemple : si l'utilisation du processeur dépasse 1 heure, migrer le job).
* Il est possible de créer des projets (auquel on peut associer des tickets de priorité). Il est possible de créer des départements : une liste d'utilisateurs et leurs droits.

Gros bémol du produit : tout fonctionne en NFS => l'extension au delà d'un réseau local nécessite donc le deploiement d'une autre architecture (éventuellement avec Globus).

Le petit point negatif : peut-être un manque d'acteurs intelligents permettant de se passer d'un bon nombre de choix de configuration. Mais je ne doute pas que certains au contraire apprecieront la customisabilite de n1Ge.

Quelques adresses :
N1 Grid Engine (anglais)
Sun Grid Engnie project (anglais)
N1 Grid Engine 6 documentation (anglais)