Moteurs de recherche à l’ère de la guerre des boutons

UseNet Treemap
Au moment où la guerre des boutons fait rage, et que l’idée que les réseaux sociaux peuvent enterrer Google se propage, il peut être utile de se rappeler que tous les moteurs de recherche ne sont pas de même nature, et que si certains se cantonnent à un espace réduit d’autres peuvent voir leur utilité maintenue.
Google nous apparaît dans son universalité comme le modèle par excellence des moteurs de recherche. C’est une illusion. L’innovation apportée par Google est de proposer à partir de mots clés une liste de page classées selon un indicateur de pertinence calculé sur la base du nombre et de la qualité des sites référents. Elle fût un progrès sur le modèle hiérarchique de l’annuaire introduit par yahoo, son usage généralisé est étroitement lié à la plasticité des mots. Quelques mots clés suffisent pour retrouver un texte particulier, et les essais pour y arriver nous font balayer une palette consistante de site pertinents. D’autres principes de recherche cependant peuvent pour des usages précis donner de meilleurs résultats.
Par exemple le moteur à indicateurs de sentiment CultureWok, qui recherche en fonction d’un profil d’humeurs désiré. Les objets sont référencés et étiquetés les participants ce qui permet de calculé des similarités affectives. Un autre exemple, tout aussi modeste, simple et judicieux permet d’identifier un arbre à partir du calcul du ratio Long/larg de la feuille de l’arbre recherché. Ce ratio classe toute les espèces, et permet ainsi à vue de trouver dans la dizaine de spécimen au alentour de se ratio celui qui est effectivement rechercher. La ligne de temps est un critère classique qui prend toute sa force quand le moteur de recherche porte sur les événements historiques et vise à donner sur la frise du temps, les documents clés recherchés. C’est dans le domaine de l’image que des solutions originales apparaissent comme avec par exemple Retrievr. On oubliera pas qu’une des recherche les plus commune est la recherche géographique dans laquelle Google maps excelle et dont on peut s’attendre à un développement important sous le double mouvement de la diffusion des mobiles et de l’accumulation des points épinglés sur la carte. Des plateformes comme tweeter se distingue ainsi par l’abondance du contenu et des moteurs spécialisés comme topsy permettent d’y retrouver ses petits. La recherche sociale donne une autre direction.
Deux paramètres caractérisent les moteurs de recherche. D’une part la construction de l’indicateur qui classe les objets, et permet d’en évaluer un petit nombre, d’autre part l’étendue du corpus de recherche. Dans le cas de Google l’étendue est virtuellement définie par tous les documents du web, dans celui de nos arbres il se limite aux quelques dizaines de milliers d’espèces et de spécimens.
L’histoire des moteurs de recherche n’est certainement pas achevée et à mesure que le web mûrit, on peut se demander si l’hypothèse de la fragmentation n’est pas la plus réaliste , et qu’autour de quelques grands moteurs généralistes – par mots clés, en temps réels, géographiques et social – se nichent de multiples moteurs spécialisés dans un domaine ou une modalité particulière de recherche.

8ème Contecsi : et si le net entrait dans l’ère du mensonge?

Todo es mentira
Le 8ème Contecsi vient de s’achever dans un bel automne Brésilien. Ce rendez-vous auquel Paris Ouest a participé était naturellement marqué par les réseaux sociaux. Joey George de l’Université de Floride et président de l’AIS en a donné la conférence inaugurale en évoquant une question importante : comment dans les relations interculturelles et à travers les médias on peut détecter les mensonges. Deux grands résultats se sont imposés. D’abord l’asymétrie entre la capacité de détection du mensonge et celle de la vérité : quand la première est détectée dans 35% des cas, la seconde l’est dans 80%. On reconnaitrait mieux le vrai que le faux. Ensuite, la force de l’échange vocal qui rejoint en terme de performance le face-à-face qui reste l’étalon. Est-ce une question d’engagement?
Naturellement le congrès avec ses 500 participants du brésil, d’Amérique du sud, d’Asie et Europe a au cours des sessions parallèle abordés de bien nombreux autre sujets. Mais à l’heure où l’internet prend un nouvel élan avec les réseaux sociaux et la marée à venir du mobile, à l’heure où plus que jamais la confiance est le préalable à l’échange utile d’information, c’était une belle manière de souligner que le monde du big data et de la surcharge informationnelle n’a de sens que si l’information produite et reproduite à défaut d’être vraie est au moins sincère. La quantité ne suffira pas elle doit aussi être précise, juste, honnête pour être utile.
Les exemples ne manquent pas. Les faux commentaires en sont un des aspects les plus spectaculaires. Mais les ages déclarés sur les réseaux sociaux, les tailles et poids dans les sites de rencontre, même les préférences déclarées dans les formulaire d’enquêtes, en sont d’autres manifestation. Sans compter les canulars et autres fausses informations que traquent certains certains sites et certains chercheurs. Quelle est la proportion de trucage et de supercherie ? Quelle vérité dans les données?

Le mensonge de plus est un des moyens les plus simple de protéger son intimité. Tricher sur les questions, embellir un profil, masquer les défauts, l’ordinaire des ruses qui altère le vrai, risque donc au travers des réseaux sociaux d’accroître de manière considérable l’information trompeuse. La multitude des synonymes de la tromperie, telle qu’en témoigne la carte lexicale çi-contre, donne une idée assez profonde du goût humain pour le bluff et la feinte pourvu qu’il ne remette pas trop en cause l’idée de soi.

On comprend ainsi qu’à travers les canaux, la nécessité accrue de disposer de détecteurs et de méthodes de détection des filouteries. Des stratégies élaborées doivent être envisagées pour à la fois identifier les informations fiables, précises, valides, garanties et écarter les impostures et autres mystifications. Le mensonge est un vieux problème du marketing, celui de la publicité est étudié depuis bien longtemps, mais aujourd’hui à l’heure de l’UGC et du crowd sourcing, ses termes changent profondément.
Dans un monde où ne parlent qu’un nombre limité d’acteurs, la triche peut être circonscrite facilement par la loi, des agences d’évaluation, des règles de déontologie, la labelisation. Mieux encore le jeu institutionnel permet de distinguer les sources crédibles de celles qui le sont moins. On peut à juste titre faire varier le degré de confiance accordé à tel ou tel média : les messages publicitaires, l’opinion publique, et l’information vérifié et garantie sont assez clairement distinguée. Dans l’univers de l’internet où chacun peut écrire sans carte de journaliste, donner un avis sans être pondéré par celui des autres, quand les frontières des sources s’évanouissent, quand l’honneur mis en jeu est limité par des masques, il est nécessaire de reconsidérer la nature de l’information recueillie massivement.
Plus précisément ce qui est en cause est la pratique de l’écoute clients. Encouragée par tous, considérée parfois comme un substitut aux études classiques, sa valeur est liée à la sincérité des clients qui s’expriment. Que ce soit par le fait que certains modes de communication médiatisée par les ordinateurs engage moins ceux qui se déclarent, ou parce qu’exagérer le propos au minimum, et travestir sa pensée au pire, est aussi un mode d’action, cette sincérité doit être mise en toute. Le fan peut ne garder que les louanges et oublier les réticences, le déçu peut ajouter des défauts inexistants, et masquer ses contentements. C’est un enjeu méthodologique majeur : pouvoir distinguer le sincère de la dissimulation, le vrai du faux, le franc et le biaisé. On imagine aisément que cela passe par une évaluation des sources et le test des contenus. Il faudra le faire dans un environemment de big data.

La douleur du curateur

rage de dents

Paper.Li a fait le buzz, Qwiki vient doucement par invitation. Pearltrees est un must des geek. Le leader et l’inventeur est sans doute scoop-it. Des plateformes et services différents qui partagent un même principe : composer une ligné éditoriale à partir de contenus produits ailleurs : vidéos, post, images, documents que les producteurs éditent sur de multiples plateformes et qu’on associe dans un même espace.

Une sorte de Djing textuel : mixer des textes et des documents qu’on a pas écrit, pas photographier, pas dessiner, pas mis en scène,  pour composer un journal neuf, une édition originale, un collage.

Incidemment ces outils créent un rôle nouveau dans les métiers du marketing digital : Le curateur. Terme qui se traduit littéralement par conservateur. Et c’est bien ce dont il s’agit : l’action sur l’édition n’est plus qu’un choix de texte mais la conservation d’un portefeuille de sources. Collecter, maintenir, exposer. Le curateur est un rédacteur en chef sans journaliste, un général sans troupe, un éditeur sans écrivain, ce triste directeur de musée qui monte de belles expositions en mendiant des œuvres qu’il ne possède pas et qu’il n’a pas produites. Les conservateurs ont le triste privilège de venir après l’art, pour maintenir  les œuvres au-delà de la mort. Les conserver et les restaurer. Mais le curateur digital ne jouit même pas d’être un gardien de cimetière!
C’est bien de drame de l’information. Quand la marque doit survivre en produisant chaque jour un contenu qu’elle ne peut pas produire, il faut bien compter sur l’abondance d’un production qui se fait ailleurs. Quand les musiciens deviennent bien trop chers les boites de nuit les remplacent par des DJ. Heureusement qu’il y a des David Guetta.
Mais pas de Dj sans technologies, sans table de mixage, sans automate qui ajuste les rythmes et les clés, permettant d’assembler ce qui ne partage rien, et donne l’illusion d’un tout, d’une création. Ces tables de mixages textuelles aujourd’hui permettent aux documentalistes de créer en clin d’oeil une revue de presse qui prend l’apparence d’un journal.
Les choix diffèrent quant à la règle de composition : Paper.li puise son inspiration du flux de messages twitter que l’on reçoit automatisant l’édition à partir d’un flux intense. En décryptant les mots clés, les citations et les contenu, il répartit l’information dans une page composée comme un journal : une Une, des brèves. Qwicki se comporte plus comme un moteur de recherche, il crée des documentaires multimédias, des sorte de reportages condensés et structurés par une ligne narrative. Scoop-it laisse une plus grande liberté de choix, la composition y reste en grande partie une liberté éditoriale, Pearl-tree maintien l’illusion d’une pensée raisonnée en enfilant les perle sur les branches du lieu commun..
Dans tous les cas, ce qui est partagé est de maintenir un rédacteur en chef en se séparant des reporters, une ligne éditoriale en se passant d’écrire, et même d’abandonner aux machines le soin de composer le numéro.. Le curateur – le conservateur, ne commande pas les œuvres ni n’en accompagne la création, il se contente de les recueillir et de les exposer. Son autorité est celle de dire ce qui est le bon goût et sa raison d’être est de faire à la place des spectateurs le tri entre le bon grain et l’ivraie, et d’arranger dans son expositions des pièces disparates pour donner l’illusion d’une cohérence, pire d’une production originale. Le curateur rêve d’être un artiste, mais il se contente de curer les canalisations du web, d’y ratisser les pièces les plus intéressantes, il n’est même pas responsable d’en préserver le bon état.
C’est un sélectionneur dont le mérite est de réduire l’effort des amateurs. Et si nous le peignons avec une certaine aigreur, c’est que son rôle le plus noble, celui de donner au catalogue un sens et une idée, il l’abandonne aux algorithmes des plateformes qui facilitent sa tâche. Il collectionne sans maintenir ni restaurer les œuvres, il choisit sans être maître de son exposition.
Il est l’auxiliaire des nouvelles machines qui produisent sur mesure les synthèses qu’exigent les spectateurs pressés dans le temps qu’ils peuvent consacrer à la visite de l’exposition et la masse des informations qu’ils reçoivent. C’est un métier qui nait moins de la nécessité de mettre en forme les documents – c’etait le rôle des éditeurs, que de celle de faciliter au public la lecture d’un livre social qui dépasse ses capacités et ses intentions.
Les nouvelles techniques du filtrage inventent un nouveaux métier de l’infomédiatisation. Celui du collage. Pas de ciseau pour découper les articles de presse, juste un clic pour ajouter à la une des nouvelles écrites ailleurs. C’est un de ces métiers malheureux que la surabondance de l’informtion nécessite. Il y aura sans doute des curateur de second ordre, des grossiste de la news qui prendront aux conservateurs le soin de sélectionner à la source.
C’est un métier qui n’a que quelque mois d’age mais grandit à mesure que ce qu’on est capable d’écrire et de créer est bien insuffisant au regard de ce qui doit être diffusé. C’est un de ces métiers qui nait de ce que l’on produit ne peut plus être absorbé par le public. Les curateurs trient l’information comme les recycleurs les déchets. Ils vont être de plus en plus nombreux pour préserver ceux qui décident de la maladie terrible qu’est l’infobésité, cete abondance d’information qui paralyse la décision.
Le remarquable est que de très beaux outils renforcent leur raison d’être. Ces nouveaux outils de publications vont faire naitre une nouvelle race d’informateur qui n’écrit pas, ne produit pas, a peu d’idées, mais fait de la censure un art. Ils ne critiquent pas, juste se contentent au fil du flot de choisir ce qui à leur yeux et à ceux de leurs employeurs mérite d’être retransmis, rediffusé, communiqué à ceux que l’information menace de submerger. 
On devine que ce métier durera peu, les machines se préparent déjà à les remplacer.

Au fil du feed : paper.li

Paper.li débarque en France, et semble largement se diffuser si j’en crois ma time-line. 
Paper.li est une simplicité déconcertante. C’est un journal, une page et une adresse composée comme la Une de nos quotidien, mais nourrie par l’es informations indexées le jour précédent par la horde de ceux qu’on suit sur twitter. Pour créer ce journal, il suffit de donner son login. Quelques minute d’analyse et la page est publiée. Efficace et beau. A ce jour la version est minimale, on ne peut paramétrer les comptes. Choisir un modèle d’édition, donner des priorité. L’engin fonctionne seul. Il envoie chaque jour l’édition du jour.
Quel engin dérrière qui décode les twits, séparant les hashatag, réponses, RT, et ramène à la surface les contenus des adresses raccourcies, et les distribue entre des catégories, leurs alloue une place et compose la page? Nous sommes curieux de le savoir, plus encore d’une version qui pourra permettre d’agir sur ce paramétrages, donnant plus d’importance à certaines sources, favorisant certains mots clés.
Cette couche superposée sur la couche des conversation de twiter remplit un double rôle de filtre et de mise en valeur. Le fil twitter que l’on ne peut raisonnablement suivre s’il l’on a plus de 200 à 500 suivants, pour nourrir convenablement notre appétit d’information doit être retraité. Filtrer d’une part pour éliminer les scories, brouillons, redondance, mais aussi classer hierarchiser et marquer ces différence par une capacité d’attraction de l’attention plus forte. C’est exactement ce que fait paper.li et que d’autres services font vraisemblablement.
On comprend du même coup le rôle de twitter, celui de nourrir le fil de nos information, non seulement par l’alimentation – ce qui est deja bien fait quand notre sélection de sources est avisée, mais aussi la digestion. C’est le rôle d’applications et de services comme paper.li. Les applications sont évidentes : la veille, qui peut ainsi être mieux distribuée, le compagnon d’un blog, les revues de presse. Répondre à la nécessité d’arrêter le temps dans un espace, de saisir le stream dans son ensemble.
Sans doute le prototype d’une évolution des plateforme qui associe crowdsourcing, personnalisation, filtrage auto-contrôlé et collaboratif, mashup ( car c’en est un), visualisation et design.C’est un produit d’une start-ip suisse, smallrivers.com  localisée au sur le campus du Swiss Institute of Technology EPFL. Une idée européenne.
La leçon est claire : le nouveau monde du digital n’est plus un problème de production de contenu, il n’est plus un problème de recherche du contenu, il est encore un problème de mise en relation des producteurs de contenus, il devient de plus en plus un problème de filtrage du contenu. Cette avanture apporte l’idée d’une solution, avec l’élégance de reprendre les code d’une vieille institution : celle de la presse.

A lire aussi 

Crédit photo