Série Xerfi – Fnege : datas, plateformes et algorithmes.

AAEAAQAAAAAAAAl8AAAAJDg4M2M0NzFiLTRlYjUtNDU3Mi1hMWI3LWFjNzNiZDk2Yjg2YQUne des vidéos date un peu, les deux autres sont toutes fraîches, elles sont complémentaires car elles traitent sous trois angles, les données, les algorithmes et les plateformes, cette réalité de nouvelles formes d’organisations fondées sur un traitement massif de l’information.

Ces vidéos ont été tournées dans le cadre du partenariat de Xerfi canal et de la FNEGE. On en retrouvera des dizaines d’autres sur tous les sujets de la gestion, des marchés et des organisations. Un belle série.

Modèle de plateformes

Algorithmes

Les modèles du bigdata

Algorithmic accountability – Work in progress

2824863959_4fe17cc109_oIl y a peu les géants du digital lançaient le partenariat pour l’IA . C’est peut être ce colloque à la NYU qui en a cristallisé l’idée. C’est déjà dans le livre de Franck Pasquale. La question du rôle social des algorithmes et de leur responsabilité, notamment celle de rendre des comptes devient centrale dans nos sociétés. Elle l’est en particulier pour les pratiques de marketing qui s’expriment de plus en plus via leurs calculs sur des volumes toujours accrues de données, les plateformes en sont le champs d’expression principal.

Recommander des produits, des relations, évaluer des risques, définir des prix, calculer des parcours, lancez des alertes personnalisées, qualifier des offres, commandez des machines, la panoplie des outils ne fait que s’étendre et se raffiner. Ces pratiques ne font-elles que ce qu’elles doivent faire? Entrainent-elle pas des réponses de ses sujets? Lesquelles? Quels sont leurs effets secondaires?

#WebblendMix bigdata : des études à l’action

22570466075_1ec1c3c91f_zLe #Web blend Mix 2015 est enthousiaste, Lyonnais et cool. Ravi d’y avoir été invité.

Quand au message à transmettre pendant la conf, c’est celui que je répète. Les données ne sont pas destinées principalement aux études, on en a déjà bien assez, et les données sans théorie sont comme l’eau sans conduite : elle se disperse et ne font rien pousser.

Les données sont là pour agir, agir en masse et de manière précise, elle fournissent le renseignement nécessaire pour activer une appli, préparer un vendeurs, motiver un acheteur. Elles ne sont rien sans les algorithmes, et les algorithme ne sont rien sans la compréhension des situations d’usage. Le big data en marketing crée de la valeur s’il est associé à un effort intelligent de modélisation, et si cette modélisation prend en compte le contexte social : le caractère performatif et politique des dispositions.

On concluera in fine, que l’usage intensif risque de s’accompagner d’une exigence sociale : celle de rendre compte des effets de cet emploi des données et des algorithme.

 

Globalisation : the platform era

10220428155_26a0ec68e2_bThis presentation is prepared for the seminar « Management a Global World -Roadmaps for the Future » organized by the FNEGE. Paris September 2015.

The goal is to demonstrate the role of new kinds of organization and business models in the new modality of globalisation and how they disrupt global markets as do Uber, Alibaba, Amazon, M-Pesa, AirBnB, etc… and challenges for society.

 

Big data, plateformes et business models

3109465935_cf6f2a4263_bLa vidéo complète d’une conférence donnée le 23 juin à la CGC Orange. La vidéo n’est pas d’aussi bonne qualité que l’originale tournée par leurs équipe (pour la faire tenir dans les limites de Viméo), mais l’image de toute façon est sans doute moins intéressante que la parole et un podcast aurait sans doute suffit!

Il y a là un bon concentré des idées que je développe depuis quelques mois. Pour le crédit photo juste un vol d’étourneau, c’est au fond une bonne métaphore du nuage et du calcul distribué qui produit des formes sans forme, une organisation sans centre mais efficace pour s’adapter, et dans le cas des oiseaux échapper aux attaques des rapaces…

Conférence Big Data CGC Juin 2015 2 from Christophe Benavent on Vimeo.

L’honnêteté, avant la confiance.

Un post lu par inadvertance, et que j’ai retenu dans mes « à-relire », relate le livre déjà ancien de Paul Seabright et soulève une question passionnante : même quand nous n’avons aucune raison de faire confiance, nous pouvons nous engager dans des échanges économiques risqués. Comme nous sommes devant l’étranger nous faisons foi à ce qu’il nous dit plus que nous nous méfions de ce qu’il va faire. Nous commerçons aisément avec des étrangers.

Interprétant rapidement cette proposition, on peut retenir l’idée que ce qui lubrifie les échanges sociaux n’est pas la confiance, mais l’ honnêteté. Nous sommes plus rarement convaincus de ce que les autres vont faire, et de leur bienveillance, que ce qu’il nous disent est vrai. La confiance n’est qu’un dérivé de cette croyance, nous pouvons en effet faire confiance pour d’autres raisons, notamment la possibilité de sanctionner celui qui a fait défaut.Ne soyons pas étonné de la proposition d’un Fukuyama qui voit dans la société américaine plus de confiance que dans les société latines, celles qui ont développées un système judiciaire fort, permettent à plus d’agents de faire valoir leur droit quand la confiance est rompue. Une société faite de liens forts en réduit les possibilités, le nombre de ceux auxquels on peut faire confiance est restreint dans les tribus, car la sanction ne peut être prononcée que dans le cercles restreint des conseils de famille. La rétorsion est en fait le concept central des théories de la confiance.

Mais face à l’étranger, cette option est inopérante. Il a un pays de refuge où nos règles ne s’exercent pas. La confiance ne dérive pas de la sanction, mais d’un a priori. Il dit vrai, il est honnête.

Le monde de l’internet où l’identité est approximative, les possibilités de rétorsions réduites, les tribunaux incertains, n’est à pas l’évidence pas un espace favorable à la confiance. La rétorsion y est impotente. Il ne reste que cette hypothèse d’honnêteté même si le cynique ne peut l’accepter. On accorde tant d’avanatges au mensonge, à la ruse, voire même à l’hypocrisie.

Et pourtant, nous n’hésitons pas à parler à des inconnus, ni même à engager des relations sentimentales, pire nous y achetons, nous y échangeons, nous partageons. Une hypothèse naturelle serait-donc que nous attribuons à autrui une vertu que nous n’avons pas forcément complètement, celle de l’honnêteté. Hypothèse d’autant plus étrange, que le mensonge semble une chose largement partagée.

Arrêtons nous un instant sur ses formes. D’abord le mensonge peut être délibéré : on fournit aisément dans les formulaires des numéros de téléphone erronés, des noms dans lesquels on glisse sans scrupule des erreurs de graphies, on ment sur son age, sa taille, on fournit des photos d’autres. Le mensonge peut être aussi simplement une omission. On ne dit pas tout, dans les listes de préférences on en indique qu’une partie. On se soustrait à la surveillance, effaçant périodiquement des centaines de cookies, ou nos historiques de consultation. Le mensonge est surtout souvent involontaire, il se fait dans ce que nous répondons dépend moins de ce que nous sommes que ce qu’on nous demande. Le fait est qu’entre les faux commentaires, les faux reportages, les fausses notices d’information, la fausseté des artistes de la communication, l’univers de l’internet semble être celui des faux semblants et des illusions, plus que cette galaxie d’information dans laquelle les masses d’information s’agrègent par la force d’une certaine gravité : celle de la vérité.

Et pourtant nous faisons confiance, sans possibilité de rétorsions. Nous prenons ce monde comme un monde sans biais, nous achetons, nous consommons. Nous agissons en croyant à la force de l’honnêteté. C’est le fait primaire, la confiance est un concept dérivé. De manière irrationnelle nous faisons l’hypothèse de l’honnêteté des inconnus. Nous nous en nous défions que si nous discernons chez eux, les signes de ce qu’ils nous mentent.

Ce mystère peut cependant être levé de deux manières. La première est de reprendre certaines thèses évolutionnistes. Les menteurs ont peu de chance de se reproduire, la sanction qu’on peut leur appliquer à défaut de toute autre rétorsion est de ne plus les croire. A la manière de pierre et le loup. Les menteurs ont peu de chance de se perpétuer, à force de mentir on ne les croit plus.

Mais on peut aller plus encore un peu loin, et reprendre la vieille théorie du handicap : pour signaler une qualité, on doit la prouver par un handicap. Le paon ne ment pas sur sa beauté, car sa roue en fait une proie visible. S’il se permet ce handicap, c’est qu’il possède vraiment cette qualité. Et l’avantage de reproduction qu’il en tire – être choisi par les faisanes – dépasse le coût d’être dévoré. Le paon est honnête, c’est le handicap de l’honnêteté qui lui donne un avantage.

La seconde manière de résoudre le mystère est que nous ne sommes pas des oies blanches, que menteurs nous sachons que les autres mentent. Mais nous savons qu’ils mentent comme nous ! Nous mentons partiellement. Et cela suffit pour développer une croyance particulière : celle de discerner chez les autres les éléments de leurs mensonges. Nous pourrions ainsi évoluer dans un environnement mensonger, et lui faire confiance, pour la simple raison que nous sommes persuadé de faire la part du bon de l’ivraie. C’est notamment l’objet des recherches de Joey George.

Les deux arguments se combinent sans difficulté. Dans un monde mensonger, parce que nous savons déceler le vrai du faux, ou simplement que nous en soyons persuadé, nous pouvons aisément croire que les Paon sont honnêtes. Les faisanes savent qu’ils disent vrai. Ils font de beaux oisillons. Si elle n’étaient pas persuadées de discerner le vrai du faux, une roue flamboyante d’une crête écarlate – ce ne sont pas des poules, cela ne vaudrait pas le coup pour les paons de risquer d’un coup d’éventail de dresser une cible à leurs prédateurs. Il suffit qu’elle croient que le paon dit vrai.

Dans un monde de mensonge, ce qui qui compte est finalement la capacité à croire discerner parmi les signes ceux qui sont vrais et ceux qui sont mensongers. Même si aucun signe ne dit le vrai, ceux qui sont mensongers seront testés. Les croyances erronées seront éliminées, et apprendre quels signes sont faux, en renforçant cette conviction de discerner le vrai du faux, renforcera l’idée que les autres sont honnêtes, et que fortement ils s’exprime, plus honnête ils sont.

L’hypothèse que la croyance en l’honnête des autres est le moteur de la croissance dans un univers mensongers est sans doute une des questions de recherche la plus pertinente pour comprendre la logique du monde digital.

Et si tout cela semble abstrait, revenons à un éléments concret : comment comprendre alors que 75% des gens pensent que les commentaires sur internet sont trompeurs, la même proportion en tient compte. Comment comprendre alors qu’on pense que les information sont fausses, nous les prenions en compte ? C’est parce que persuadé de discerner le mensonge de la sincérité, nous faisons l’hypothèse de l’honnêteté, que ceux qui disent vrai le manifeste au point de souffrir de profonds handicaps. Ces signes coûteux nous apprenant à discerner le vrai du faux, nous renforcent dans l’idée que ce que les autres disent est à priori vrai.

La confiance ainsi ne se nourri pas de foi mais de la pratique de l’ honnêteté. Et la preuve empirique, est que du marché du village à  e-bay, au fond les escroqueries sont rares. Les marchés ne fonctionnent pas par la confiance, mais par l’honnêteté de leurs acteurs, ou du moins d’une large majorité, et par la croyance qu’ils ont de reconnaitre l’honnêteté de leurs partenaires. Le monde est bon.

crédit photo : I appreciate honesty

Open Data – Un nouveau chemin pour les systèmes CRM

Car crashes
A l’occasion de la publication du rapport de l’Ecole des Ponts sur l’Open Data, il est utile de rappeler quelques transformations majeures dans le monde des données et du CRM. Le projet apparu à la fin des années 90 de compiler toutes les données comportementales et toutes les données de contact pour mettre en oeuvre des politiques commerciales différenciées est aujourd’hui largement bousculé moins par les technologies que par l’abondance et la diversité de l’information disponible.
Dans une époque encore récente, le développement de bases de données marketing pouvait avoir pour finalité de comprendre comment les actions marketing produisent un effet en notant au niveau le plus désagrégée les message émis auprès des clients quelques soient leurs sources : DM, vendeurs, mail, appels, coupons etc (360°) et les réponses à ces messages des consommateurs. 
La capacité d’enregistrer la totalité des interaction ouvrait alors un boulevard au marketing science, la fonction de réponse du consommateur devenait non seulement plus complétement spécifiable, mais pouvait être déclinée à un niveau quasi individuel. C’est cette approche qui est d’ailleurs toujours au coeur du Big Data. La nouveauté semblant l’automatisation du calcul de ces fonctions, et des décisions qui peuvent en découler.
Une limite cependant à ce projet doit être notée : les données propriétaires des systèmes CRM ne donnent qu’un point de vue étroit du comportement. Même en disposant de tous les capteurs possibles, on ne saisit du comportement que celui qui concerne l’entreprise, et l’on ne retient des actions marketing que celles que l’on exerce. Les données venant de la concurrence sont inexistantes, ou au mieux très parcellaires. C’est une limite majeure dans la pertinence des modèles, la masse des données disponibles ne pallie pas à cette myopie, même si elle a été réduite par une meilleure prise en compte des situations.
Avec le développement du Web², une innovation est apparue dont on ne souligne pas assez l’importance, en tout cas dans la conception des systèmes CRM. L’information n’est plus tout à fait propriétaire. Avec l’apparition des API, les grandes bases de données ont un caractère public. Permettant la création de mashup, une autre source de donnée est apportée aux systèmes CRM et s’y combine. C’est ce que fait notamment Salesforce.com avec son Chatter. Le mouvement est en plein essor, il sera de plus en plus difficile de concevoir des bases de données marketing alimentée uniquement par des capteurs internes. La tentation sera de plus en plus forte d’intégrer ces données presque publiques qui sont stockées et maintenues dans les plateformes sociales. Et si l’accès intégral et libre n’est pas complet, c’est par le truchement des fonctions sociales que l’enrichissement pourra être fait. Il est évident que la question du droit de la vie privée va jouer un rôle fondamental : à qui appartiennent les données ? A l’hébergeur? Au créateur? A qui appartiennent les données dérivée? Pour ne prendre qu’un exemple, le service Klout génère à partir de l’analyse des flux de twitt des indicateurs d’influences des internautes. On imagine qu’ils peuvent alimenter les bases CRM pour qualifier certains clients.
Mais venons-en au fait. Dans ce mouvement d’élargissement des sources, les politiques d’open data apportent un nouvel élément. A mesure qu’elles seront mise en place, des sources nouvelles d’information seront mise à disposition. Sans doute permettront-elle une meilleure transparence de la société, et donneront aux citoyens et à leurs médiateurs, les moyens d’une critique des politiques plus précise et mieux fondée, sans doute vont-elle permettre au travers de la réutilisation, la génération d’une vague d’innovation, mais elle vont aussi fournir aux marketeurs de nouvelles sources qui seront d’autant plus utiles qu’elle concerneront des échelles géographiques fines.
Et c’est d’ailleurs une des interrogations que l’on peut avoir sur la politique de l’open data. Plutôt que de favoriser la démocratie, elle risque d’être plus avantageuse pour les entreprises. L’exemple du prix de l’eau donné par Bonnel est illustratif : quand toute les communes publierons leurs données, qui en profitera vraiment ? Les opérateurs ou les consommateurs? Pour mieux comprendre ces enjeux il va falloir revenir aux théories de l’économie de l’information. Si l’information privée est une source d’avantage concurrentiel, quand les asymétries le sont excessivement, c’est le marché qui s’effondre et il convient pour le restaurer et rendre public l’information privée.
La question de l’open data peut ainsi être renversée. Les données privées accumulées par les firmes, ne doivent-elle pas être rendue publique au moins sous des formes agrégées ? N’y aurait-il pas un bénéfice collectif à de telles politiques?

Moteurs de recherche à l’ère de la guerre des boutons

UseNet Treemap
Au moment où la guerre des boutons fait rage, et que l’idée que les réseaux sociaux peuvent enterrer Google se propage, il peut être utile de se rappeler que tous les moteurs de recherche ne sont pas de même nature, et que si certains se cantonnent à un espace réduit d’autres peuvent voir leur utilité maintenue.
Google nous apparaît dans son universalité comme le modèle par excellence des moteurs de recherche. C’est une illusion. L’innovation apportée par Google est de proposer à partir de mots clés une liste de page classées selon un indicateur de pertinence calculé sur la base du nombre et de la qualité des sites référents. Elle fût un progrès sur le modèle hiérarchique de l’annuaire introduit par yahoo, son usage généralisé est étroitement lié à la plasticité des mots. Quelques mots clés suffisent pour retrouver un texte particulier, et les essais pour y arriver nous font balayer une palette consistante de site pertinents. D’autres principes de recherche cependant peuvent pour des usages précis donner de meilleurs résultats.
Par exemple le moteur à indicateurs de sentiment CultureWok, qui recherche en fonction d’un profil d’humeurs désiré. Les objets sont référencés et étiquetés les participants ce qui permet de calculé des similarités affectives. Un autre exemple, tout aussi modeste, simple et judicieux permet d’identifier un arbre à partir du calcul du ratio Long/larg de la feuille de l’arbre recherché. Ce ratio classe toute les espèces, et permet ainsi à vue de trouver dans la dizaine de spécimen au alentour de se ratio celui qui est effectivement rechercher. La ligne de temps est un critère classique qui prend toute sa force quand le moteur de recherche porte sur les événements historiques et vise à donner sur la frise du temps, les documents clés recherchés. C’est dans le domaine de l’image que des solutions originales apparaissent comme avec par exemple Retrievr. On oubliera pas qu’une des recherche les plus commune est la recherche géographique dans laquelle Google maps excelle et dont on peut s’attendre à un développement important sous le double mouvement de la diffusion des mobiles et de l’accumulation des points épinglés sur la carte. Des plateformes comme tweeter se distingue ainsi par l’abondance du contenu et des moteurs spécialisés comme topsy permettent d’y retrouver ses petits. La recherche sociale donne une autre direction.
Deux paramètres caractérisent les moteurs de recherche. D’une part la construction de l’indicateur qui classe les objets, et permet d’en évaluer un petit nombre, d’autre part l’étendue du corpus de recherche. Dans le cas de Google l’étendue est virtuellement définie par tous les documents du web, dans celui de nos arbres il se limite aux quelques dizaines de milliers d’espèces et de spécimens.
L’histoire des moteurs de recherche n’est certainement pas achevée et à mesure que le web mûrit, on peut se demander si l’hypothèse de la fragmentation n’est pas la plus réaliste , et qu’autour de quelques grands moteurs généralistes – par mots clés, en temps réels, géographiques et social – se nichent de multiples moteurs spécialisés dans un domaine ou une modalité particulière de recherche.

Big data – un oeil sur les organisations

Big Data : Water Landscape
Il y a un air de déjà vu dans la promesse du Big Data, un quelque chose d’avant les années 2000 quand ont nous faisais espéré trouvé l’or des bases de données relationnelles, plus encore au tournant du siècle avec des systèmes CRM prêt à faire la différence (stratégique) et toute cette battéries d’outils statistiques rhabillée en pelle et pioches du minage de données. Aujourd’hui Big Blue en tête et les société de conseil comme McKinsey reviennent vendre du petaoctet au motif que les grosses données du net sont pleines de ressources, qu’il faut désormais être prêt a accueillir cette munificence recueillies par les milliards de capteurs : PC, laptops, ATM, call center, front-office, terminaux de paiement, mobiles, GSM, tablettes, compteurs divers et variés, TV, et tout ceux qui vont venir bientôt s’encastrer dans nos objets.
Soyons prudent sur les promesse, l’or est peut-être dans les données, mais le difficile c’est de l’extraire, et le nombre pourrait ne pas être suffisant. Les riches alchimistes ne sont pas ceux qui possédaient des mines de plomb, mais ceux qui ont découvert le procédé de la transmutation. Il est nécessaire de réfléchir mieux à ce pourquoi l’information et sa codification en données apporte de la valeur. On a trop souvent défendu un point de vue fétichiste qui attribue à la donnée un pouvoir limitée au placebo. 3 points.
Premier argument : l’avantage de la quantité. Il n’est pas sur du tout que les bases comportementales ont amélioré fortement la connaissance que nous avions des clients. Pour le praticien de la recherche et des études, l’exploitation de la quantité montre que le rendement du volume d’information est rapidement décroissant. S’il faut explorer une consommation, quelques petites dizaines d’interview permettent de se rendre rapidement compte des points clés et d’une grande partie du détail. Les interviews supplémentaire apporteront peu, voire rien. Le corpus obtenu d’un million de signe suffit.
Dans les enquêtes plus codifiées, qui visent à une mesure précision de la fréquence d’un caractère ou du degré d’un opinion, les traits généraux sont saisis à partir de plusieurs centaines d’observation, les milliers permettent de comparer surement des sous-populations, et à l’ordre grandeur de 10000, la précision est bien plus grandes que les erreurs de mesure. La théorie de l’échantillonnage contredit sérieusement les prétentions du big data : il n’y a pas besoin d’un volume très grand d’information pour saisir toute la connaissance, il faut un échantillon bien choisi, représentant correctement la population étudiée. De ce point de vue le big data aussi vaste soit -il, à moins d’être exhaustif, est une source de biais : les information collectées ne couvrent qu’un partie de l’univers et son donc susceptible à des biais.
Ajoutons que sans modèle, les mesures ont peu de chance de devenir connaissance. L’essentiel dans les données ce sont les grilles d’analyse et les modèles issus du raisonnement théorique qui permettent de transformer la donnée en connaissance. Juste un exemple, l’analyse des données de réseau produit aujourd’hui de très beaux graphes, dont les imprimantes modernes peuvent dessiner les plus fines relations. C’est très beau et ça ne nous apprend rien. En revanche disposer d’une théorie et d’un modèle de la structure des réseaux ( par ex : Attachement préférentiel, free scale distribution model) permet d’en calculer des propriétés globales et une partie du comportement. la valeur n’est pas dans les données mais dans le modèle.
Un autre argument justifie l’approche Big data : L’avantage de hétérogénéité. S’il n’y a pas de différence épistémologique entre petites et grandes données. Il y en a une très pratique : les êtres humains sont très différents, et varient dans leurs comportements. Il n’y pas pas une loi d’ensemble, mais des variations fortes. Obtenir des données nombreuses apporte l’avantage de pouvoir dans l’instant de l’action projeter les valeurs des paramètres calculés par les modèles. La valeur de l’information n’est donc pas dans la connaissance mais dans l’exploitation de cette connaissance. 
Et c’est bien là la promesse du big data : l’automatisation de la décision dans des contextes très spécifiques. Là, on comprend mieux la source de cette valeur. Même si on ne dispose que d’un modèle frustre, son adaptation par un seul paramètre (par exemple une élasticité prix qu’on peut individualisée, et qui permet donc d’optimiser individuellement le prix pour tirer tout l’avantage d’une discrimination presque optimale) permet des gains dont l’espérance est sans doute faible unité par unité, mais dont l’accumulation peut sans doute justifier les vastes investissement du Big Data à venir.
Cette automatisation de la décision suppose qu’au-dessus de la couche des capteurs et des dispositifs de stockage et d’échange de l’information, de celle des modèles et des stratégies, se développe une plateforme décisionnelle : une capacité de production de règle de décision, des moteurs d’inférence, des simulateurs. L’exigence c’est le temps réel et l’ubiquité. Pouvoir en quelque seconde comparer les informations contextuelles aux banques de connaissance et de règles pour délivrer une réponse.
Cet avantage de hétérogénéité ne se limite pas à la décision. Nous vivons dans un temps et un espace physique, chacun est soumis à un champs local puissant. Le Big Data permet de produire une information contextualisée de manière continue. Des zones géographique fine et des fenêtre de temps courtes. Nous sommes dans l’échelle du mètre et de la seconde. On imagine la production de tableaux de bord généralisés. Voir dans une banque agence par agence et minute par minute les variation de l’activité, observer les ventes en continu dans le supermarché et détecter les engouement en quelques heures. C’est la possibilité de projeter en temps réel l’information locale aux acteurs locaux pour qu’il prenne de meilleures décisions, aiguise leur connaissance du terrain qui devient la source de valeur.
Le Big Data assurément va remettre en question les organisations. Et proposons une hypothèses : si les système CRM ont centralisé la stratégie et son application, allégeant la charge du réseau physique pour la déplacer sur des plateformes centrales, le Big Data ne sera un succès que s’il s’accompagne d’une décentralisation de la décision et au moins de repenser l’organisation.