
MoteurZine : http://www.moteurzine.com/archives/2006/moteurzine131.html#10
Guillaume Esnault - Biglotron.com : http://www.biglotron.com (Site abandonné)
L'interview de ce mois-ci porte sur un « moteur de recherche usine à gaz » : Biglotron. Son auteur n'est autre qu'un des créateurs du site « Le Village » : rappelez vous ! Un hébergeur de pages perso, un village en 3D et un journal écrit par les internautes. Il a été revendu en partie au groupe IFrance. Biglotron propose déjà les vignettes, l'avis des utilisateurs, les nuages de tags et bien d'autres choses. Personnellement : je l'aime bien malgré son design que je trouve trop épuré mais ce n'est que mon avis.
Guillaume Esnault : J'ai démarré ma carrière en tant que Formateur en administration système. En 1994 je découvre Internet et Linux. C'est la révélation ! J'ai lancé la société CYBERBRAIN en 1996 sur un projet de groupware Internet pour la société française de cardiologie. Suite à l'abandon de ce projet nous avons eu l'idée de réadapter nos développements afin de créer un site communautaire www.leVillage.Org. Les services phares proposés étaient la création d'un titre de presse en ligne et distribué en kiosque, l'Echo du Village, Le premier journal écrit par les Internautes, l'hébergement de pages persos et un Village virtuel en 3D. La partie hébergement a été vendue à Ifrance en 1999 puis la société à été reprise par un groupe d'investisseurs en 2001. J'ai créé la sté GeniProj en 2002 et je suis entièrement sortie de Cyberbrain en 2003. A cette occasion, nous avons pu récupérer un certain nombre de services de la société Cyberbain. Notamment www.compteur.com, www.causette.com et plusieurs autres...
GE : C'est un moteur « crawler indexer ». L'idée est de réaliser de la façon la plus économique possible un moteur de recherche capable de répondre de façon pertinente dans la seconde à une recherche dans des centaines de millions, voir des milliards de pages. Même si nous en sommes seulement à une capacité de moins de 300 millions de pages, nous pensons avoir réalisé une des solutions les plus économiques du moment. Enfin, nous avons mis au point une mécanique de triage des résultats basée non seulement calculé sur le système de liens entre les pages mais aussi sur l'ensemble des actions des utilisateurs (votes, cliques, audience). Biglotron est un terme qui avait été utilisé par le défunt fondateur de l'Echo du Village René Le Marec pour souligner l'aspect « usine à gaz » de cette application.
GE : Le système fonctionne actuellement avec une trentaine de machines bas de gamme en cluster. Certaines parties sont développées en C et d'autres en Perl. Le tout fonctionne sur des Fedora Biglotronisées. Nous utilisons et soutenons le logiciel libre. Rien n'est utilisé dans notre projet qui ne soit pas open source.
GE : Cela fait trop longtemps que vous n'êtes pas venu nous voir :) Nous avons maintenant une capacité de 297 millions de pages web. Nos bases sont remplies au 3/4. Bien sûr nous espérons aller beaucoup plus loin. Nous sommes en effet les créateurs de nos bases de données. Nous ne travaillons avec aucun sous traitant pour ce service. Tout est réalisé en interne. La qualité va parfois de paire avec la quantité. Dans une recherche qui ramène, par exemple, plus d'un million de résultats, c'est la qualité qui compte. Il faut faire remonter les bons résultats. Mais dans le cas d'une recherche très particulière où il n'existe sur le web qu'une ou deux pages, il faut disposer de l'ensemble des documents publié sur l'Internet. Dans ce dernier cas c'est la quantité qui compte.
GE : Nous avons plusieurs objectifs. De fournir une bonne alternative pour la recherche de documents sur Internet. Pour cela il nous faut fournir le résultat le plus pertinent possible en moins d'une seconde. D'un point de vue moral, nous évitons de faire remonter des résultats pour de mauvaises raisons, qu'elles soient éthiques, politiques ou économiques.
GE : Ce service est toujours en cour de développement. Il n'a pas encore été vraiment lancé. Pour le moment il nous sert à montrer les capacités de nos solutions. Cependant, selon alexa.com, nous avons doublé dir.com et nous talonnons exalead.fr.
GE : L'innovation peut se situer aussi dans la rapidité :) Mais nous pensons que l'innovation principale de Biglotron est dans ses algorithmes de triage des résultats. C'est à ce niveau que nous travaillons le plus.
GE : Comme dit plus haut, Biglotron est en cours de développement. Pour ce service, c'est plutôt la location en mode ASP qui fait le chiffre, comme pour www.propulseur.com qui est un moteur de recherche orienté professionnels, basé sur le croisement de notre moteur et de l'annuaire www.indexa.com. Le gros du notre chiffre nous vient des autres services qui composent notre réseau. Notamment, www.kokoom.com (Hébergement gratuit), www.causette.com (Chat, IRC) et www.compteur.com (services pour webmestres).
GE : Nous sommes dans le même secteur qu'Exalead ou Antidot.
GE : Non, Biglotron ne marche pas comme par magie. D'ailleurs, il ne marche toujours pas comme on le voudrait. Mais je pense que nous sommes sur la bonne voie. Un des points forts de notre solution est la gestion des plantages. Nous sommes devenus des spécialistes du crash disque ;)
GE : Les moteurs de recherches qui disposent de leurs propres index et de leurs propres technologies ne sont pas si nombreux. Les annuaires, eux, sont potentiellement, nos futurs clients. Nous ne nous sommes pas lancés dans le domaine des moteurs de recherches par opportunisme. Ce marché est effectivement concurrentiel. C'est plutôt le challenge technique qui nous a motivé, nous sommes des passionnés. La création d'un moteur de recherche généraliste et systématique est sans doute la chose la plus lourde et complexe que l'on puisse réaliser sur l'Internet. Je ne vous cache pas que nous sommes sensibles au côté sportif de ce projet.
GE : L'avenir de la recherche sur le web c'est Biglotron ;) Google prend trop de place.
GE : Merci à vous. On en aura sûrement besoin !
Voila pour cette fin de mois. Je vous informe qu'une coquille s'est produite à la ligne : « votre index était constitué de 27 millions de documents » ; ce n'était pas 27 mais 297. Bonnes vacances à tous ceux qui ont fini le travail.