Moteurs de recherche à l’ère de la guerre des boutons

UseNet Treemap
Au moment où la guerre des boutons fait rage, et que l’idée que les réseaux sociaux peuvent enterrer Google se propage, il peut être utile de se rappeler que tous les moteurs de recherche ne sont pas de même nature, et que si certains se cantonnent à un espace réduit d’autres peuvent voir leur utilité maintenue.
Google nous apparaît dans son universalité comme le modèle par excellence des moteurs de recherche. C’est une illusion. L’innovation apportée par Google est de proposer à partir de mots clés une liste de page classées selon un indicateur de pertinence calculé sur la base du nombre et de la qualité des sites référents. Elle fût un progrès sur le modèle hiérarchique de l’annuaire introduit par yahoo, son usage généralisé est étroitement lié à la plasticité des mots. Quelques mots clés suffisent pour retrouver un texte particulier, et les essais pour y arriver nous font balayer une palette consistante de site pertinents. D’autres principes de recherche cependant peuvent pour des usages précis donner de meilleurs résultats.
Par exemple le moteur à indicateurs de sentiment CultureWok, qui recherche en fonction d’un profil d’humeurs désiré. Les objets sont référencés et étiquetés les participants ce qui permet de calculé des similarités affectives. Un autre exemple, tout aussi modeste, simple et judicieux permet d’identifier un arbre à partir du calcul du ratio Long/larg de la feuille de l’arbre recherché. Ce ratio classe toute les espèces, et permet ainsi à vue de trouver dans la dizaine de spécimen au alentour de se ratio celui qui est effectivement rechercher. La ligne de temps est un critère classique qui prend toute sa force quand le moteur de recherche porte sur les événements historiques et vise à donner sur la frise du temps, les documents clés recherchés. C’est dans le domaine de l’image que des solutions originales apparaissent comme avec par exemple Retrievr. On oubliera pas qu’une des recherche les plus commune est la recherche géographique dans laquelle Google maps excelle et dont on peut s’attendre à un développement important sous le double mouvement de la diffusion des mobiles et de l’accumulation des points épinglés sur la carte. Des plateformes comme tweeter se distingue ainsi par l’abondance du contenu et des moteurs spécialisés comme topsy permettent d’y retrouver ses petits. La recherche sociale donne une autre direction.
Deux paramètres caractérisent les moteurs de recherche. D’une part la construction de l’indicateur qui classe les objets, et permet d’en évaluer un petit nombre, d’autre part l’étendue du corpus de recherche. Dans le cas de Google l’étendue est virtuellement définie par tous les documents du web, dans celui de nos arbres il se limite aux quelques dizaines de milliers d’espèces et de spécimens.
L’histoire des moteurs de recherche n’est certainement pas achevée et à mesure que le web mûrit, on peut se demander si l’hypothèse de la fragmentation n’est pas la plus réaliste , et qu’autour de quelques grands moteurs généralistes – par mots clés, en temps réels, géographiques et social – se nichent de multiples moteurs spécialisés dans un domaine ou une modalité particulière de recherche.

8ème Contecsi : et si le net entrait dans l’ère du mensonge?

Todo es mentira
Le 8ème Contecsi vient de s’achever dans un bel automne Brésilien. Ce rendez-vous auquel Paris Ouest a participé était naturellement marqué par les réseaux sociaux. Joey George de l’Université de Floride et président de l’AIS en a donné la conférence inaugurale en évoquant une question importante : comment dans les relations interculturelles et à travers les médias on peut détecter les mensonges. Deux grands résultats se sont imposés. D’abord l’asymétrie entre la capacité de détection du mensonge et celle de la vérité : quand la première est détectée dans 35% des cas, la seconde l’est dans 80%. On reconnaitrait mieux le vrai que le faux. Ensuite, la force de l’échange vocal qui rejoint en terme de performance le face-à-face qui reste l’étalon. Est-ce une question d’engagement?
Naturellement le congrès avec ses 500 participants du brésil, d’Amérique du sud, d’Asie et Europe a au cours des sessions parallèle abordés de bien nombreux autre sujets. Mais à l’heure où l’internet prend un nouvel élan avec les réseaux sociaux et la marée à venir du mobile, à l’heure où plus que jamais la confiance est le préalable à l’échange utile d’information, c’était une belle manière de souligner que le monde du big data et de la surcharge informationnelle n’a de sens que si l’information produite et reproduite à défaut d’être vraie est au moins sincère. La quantité ne suffira pas elle doit aussi être précise, juste, honnête pour être utile.
Les exemples ne manquent pas. Les faux commentaires en sont un des aspects les plus spectaculaires. Mais les ages déclarés sur les réseaux sociaux, les tailles et poids dans les sites de rencontre, même les préférences déclarées dans les formulaire d’enquêtes, en sont d’autres manifestation. Sans compter les canulars et autres fausses informations que traquent certains certains sites et certains chercheurs. Quelle est la proportion de trucage et de supercherie ? Quelle vérité dans les données?

Le mensonge de plus est un des moyens les plus simple de protéger son intimité. Tricher sur les questions, embellir un profil, masquer les défauts, l’ordinaire des ruses qui altère le vrai, risque donc au travers des réseaux sociaux d’accroître de manière considérable l’information trompeuse. La multitude des synonymes de la tromperie, telle qu’en témoigne la carte lexicale çi-contre, donne une idée assez profonde du goût humain pour le bluff et la feinte pourvu qu’il ne remette pas trop en cause l’idée de soi.

On comprend ainsi qu’à travers les canaux, la nécessité accrue de disposer de détecteurs et de méthodes de détection des filouteries. Des stratégies élaborées doivent être envisagées pour à la fois identifier les informations fiables, précises, valides, garanties et écarter les impostures et autres mystifications. Le mensonge est un vieux problème du marketing, celui de la publicité est étudié depuis bien longtemps, mais aujourd’hui à l’heure de l’UGC et du crowd sourcing, ses termes changent profondément.
Dans un monde où ne parlent qu’un nombre limité d’acteurs, la triche peut être circonscrite facilement par la loi, des agences d’évaluation, des règles de déontologie, la labelisation. Mieux encore le jeu institutionnel permet de distinguer les sources crédibles de celles qui le sont moins. On peut à juste titre faire varier le degré de confiance accordé à tel ou tel média : les messages publicitaires, l’opinion publique, et l’information vérifié et garantie sont assez clairement distinguée. Dans l’univers de l’internet où chacun peut écrire sans carte de journaliste, donner un avis sans être pondéré par celui des autres, quand les frontières des sources s’évanouissent, quand l’honneur mis en jeu est limité par des masques, il est nécessaire de reconsidérer la nature de l’information recueillie massivement.
Plus précisément ce qui est en cause est la pratique de l’écoute clients. Encouragée par tous, considérée parfois comme un substitut aux études classiques, sa valeur est liée à la sincérité des clients qui s’expriment. Que ce soit par le fait que certains modes de communication médiatisée par les ordinateurs engage moins ceux qui se déclarent, ou parce qu’exagérer le propos au minimum, et travestir sa pensée au pire, est aussi un mode d’action, cette sincérité doit être mise en toute. Le fan peut ne garder que les louanges et oublier les réticences, le déçu peut ajouter des défauts inexistants, et masquer ses contentements. C’est un enjeu méthodologique majeur : pouvoir distinguer le sincère de la dissimulation, le vrai du faux, le franc et le biaisé. On imagine aisément que cela passe par une évaluation des sources et le test des contenus. Il faudra le faire dans un environemment de big data.