Le piège à miel des données ne fait pas saliver

Longtemps que je n’avais pas fait de billet d’humeur.

Est-ce de préparer la conférence MyData qui aura lieu la semaine prochaine entre Talinn et Helsinki ( gardons l’esprit en vacances), mais par une opération rare de sérendipité, voila que je vois surgir de mon fil twitter, cette page de publicité, dans le plus pur style viral qu’il soit. Rarement d’ailleurs le mot viral est aussi adéquat. Vous cliquerez l’image suite, et vous verrez que vous avez été averti.

De quoi s’agit-il? D’une offre de parrainage classique. Si vous retweetez cette offre en taguant l’image avec deux de vos amis, vous avez droit gratuitement au kit de séquençage génétique et de craquer votre code génétique.

Et bien sur que j’ai voulu gagner, et suis sur que vous avez faire comme moi. Alors j’ai cliqué et j’ai découvert le moyen de savoir quelle part de Néandertalien  il y a en moi, à quel point suis-je primitif. C’est parfaitement clair et n’a pas besoin de commentaire.

J’ai été grand lecteur de pif gadget, franchement ça n’a plus rien à voir et c’est pareil. On est passé des expériences avec des piles, celles qu’on testait en posant le bout de la langue sur la lamelle de cuivre par un picotement désagréable et métalique, à cracher dans un sac en plastique et à l’envoyer là bas où ils font de la haute-technologie, pour recevoir en retour un certificat attestant les traits néandertaliens qui subsistent dans notre ADN. Il est bien dit sur la pochette, que c’est à but ludique et non thérapeutique, et même que la génétique palélithique n’en était qu’à ses débuts. On joue.

A la première analyse, cette offre – qui est tarifée normalement – à 80 $ pour le Kit Helix DNA, et 24 $ pour le test Neanderthal, est proposé par Isitome et le kit ADN par une autre entreprise évidemment dénommée Helix.

On devine immédiatement le modèle. Des millions de gens envoient leurs salives, ils peuvent rester propriétaires de leurs données, eux-même n’en feront rien.  Helix séquence décode, conserve le code. D’autres entreprises se concentre sur l’identification fonctionnelle des gènes. Lesquels appartiennent à nos très lointains ancêtre ? lesquels predisposent nos futurs enfants à des maladies mortelles, lesquelles affectent nos allergies alimentaires et non alimentaires. C’est un modèles de plateformes, les entreprises qui vont se focaliser sur telle ou telle portion de gènes, développent simplement des applis, une nouvelle génération d’applis. Les médecins, les hôpitaux, seront nécessairement obligés de passer par leurs API pour tester leurs hypothèses et leurs diagnostics. On espère que les services secrets n’y auront pas d’accès, mais il y a de quoi douter.

Néanderthal est un formidable produit d’appel pour constituer ce qui potentiellement est un des futurs Google des données génétiques. Des millions de gens et sans doute très bientôt des milliards d’humains auront craché pour qu’on leur vende leur propre histoire : si l’on reprend textuellement la promesse d’Isitome.

C’est merveilleux, nous sommes uniques, un livre unique qu’on ne peut cependant pas lire soi-même, mais qu’on peut faire lire par la plateforme, et dont on va acheter les pages et les lectures par morceau. 20 dollars pour connaitre nos ancêtres, 200 pour nos allergies, au moins 400 pour savoir quelle saloperie on peut léguer à nos enfants, 50 plus tard aux première alerte cardiaque pour que le chirurgien aie une meilleure connaissance de nos prédispositions. Quoiqu’à vrai dire dans ce cas, c’est l’assurance santé qui paye et on lui fera payer un tout autre prix. Un seul décodage, le plus tôt possible est finalement souhaitable, et ce sera une customerlife time value aussi longue que notre vide d’humain. Le pactole.

Mais il faut faire vite. Comme pour les plateformes traditionnelles ( et oui c’est un coup de vieux pour les Ubers et autres Blablacar) c’est celui qui accumule le plus de données, qui détiendra le stock de gène séquencé le plus élevé, qui remporte le marché. A lui de créer un écosystème et une myriades de start-up spécialisée dans les tests, de développer les Apis qui permettent aux tiers, les médecins – et oui, le médecin devient un tiers, un acteur périphérique dans ce modèle- , d’accéder aux données.

La nouveauté dans le cas c’est d’introduire les techniques les plus agressives du marketing, la culture du sweepstake et du cadeau promotionnel. Et d’accrocher sur le plus périphérique, le plus ludique et le plus sensible : notre identité. Les marabouts et les voyantes, ce sont leurs techniques marketing, ne sont désormais plus que poussière. C’est bien plus fort de lire dans la salive que dans le marc de café.

Cela donne le vertige et une toute autre perspective à la question de la protection des données. Jusqu’à aujourd’hui les données étaient des représentations, des traces. Ce qui reste dans la matière après un événement. L’empreinte d’un pied de dinosaure ou un selfie. L’une et l’autre s’effacent rapidement. Rares sont les empreintes de dinosaure et pourtant ils ont beaucoup marché. Avec les selfies, et bien d’autre chose, la question qui se pose depuis longtemps, c’est que reproductibles, ces traces ne s’effacent pas et s’accumulent. Comme si les cheveux que l’on perd, les rognures d’ongles, nos squames,  ne disparaissaient pas dans le néant, mais s’accumulaient autour de nous. On traite ce nouveau problème en nettoyant, en sécurisant, en recherchant une solution qui soit une sorte d’urnes dans laquelle on conserverait nos traces. Est-ce la solution du cloud ou son alternative du cloud personnel et d’un retour au p2p véritable ? On ne sait pas encore.

Mais avec l’ADN, qu’on peut attraper avec un cheveu ou une goutte de salive, il ne s’agit plus de trace, il s’agit de notre propre code. Ce ne sont plus des données personnelle, c’est la personne même !

Sans craindre qu’il soit modifié ( c’est un autre souci), on doit craindre dès aujourd’hui d’être amené à payer un loyer à vie pour qu’on puisse nous lire notre propre code, et bénéficier des avancées de la médecine. Je reste optimiste en croyant qu’avec ces techniques on pourra mieux traiter les maux qui se précipitent avec l’âge. Le vertige est que cela semble inexorable.

 Crédit photo : Thierry Ehrmann , et lire le texte – en 2008 le kit était à près de 1000 $, aujourd’hui à 100.

Fringues, une question de regard – une courte étude

hawai1950Le burkini est avant tout une marque et le fait du marketing dans la globalisation. Avant tout, car c’est la l’invention d’une entreprise et non d’un mouvement religieux. Un marketing au pied de la lettre qui tente de satisfaire une attente d’un segment ou de plusieurs segments de consommatrices. Pas seulement celui des musulmanes mais de toutes celles (naturellement seules les femmes sont concernées) dont les normes sociales auxquelles elles adhèrent contiennent une modalité particulière de la pudeur – ne pas laisser apparaitre en public ce qui relève de l’intimité – mais aussi la revendication d’une forme de modernité  : un vêtement spécifique pour le bain en opposition à la tradition – se baigner habillée, comme le font les indiennes, ou pour des raisons de teint de peau comme le font les chinoises.

Les marques sont des signes et le vêtement est en grande partie ostentatoire. S’il présente des attributs fonctionnels (le confort, la facilité d’entretien .. ), il en comporte d’autres associés à des dimensions plus symbolique et identitaires. S’habiller c’est dire ce qu’on est.

Voilà qui m’a rappelé que je possédais un petit jeu de donnée constitué par des étudiants dans les années 2005 avec une enquête portant sur l’univers des marques surfs. Une belle occasion pour revisiter ces données avec une technique ancienne mais négligée qui s’adaptent parfaitement à nos données : en particulier une batterie de plus de 35 critères de décision de choix d’un vêtement (Slide 2) correspondant parfaitement à la notion d’avantage recherché. C’était aussi l’occasion de faire tester une vieille technique d’analyse, rarement employée en marketing, mais particulièrement utile pour traiter ce type de données : la fonction Iclust du package r Psych. le but sera d’identifier les avantages recherchés, de les construire et d’en tirer un modèle de benefit segmentation.

A la segmentation par avantage recherché on ajoutera l’étude d’une autre question portant sur les situations d’usage : porter le vêtement à  l’école ou à la campagne, pour faire les courses ou aller au travail… Ce sera l’occasion de revisiter la question du positionnement des marques (slide 7) et de leur écologie (slide 8).

La méthode Iclust est une variante de méthodes de classification hiérarchique ascendantes destinée à classer non pas les individus mais les variables. Elle permet de  mieux comprendre comment les catégories de jugements se forment et se généralisent. C’est William Revelle, l’un des principaux contributeur du package Psych de r, et un des meilleurs spécialistes de psychométrie, en est son inventeur. La mesure de similarité s’appuie sur  des critères de fiabilité. Deux réponses seront associées si le coefficient alpha de Cronbach , ou une variante -le coefficient beta –  propre à l’auteur – défini comme le plus mauvais split-half test du groupe d’items- est maximisé. Son intérêt réside dans l’identification de sous-échelles parmi un large ensemble d’items.

Passons au concret. Les données que l’on traitent d’abord (slide 2) sont une liste de critères de choix. Le résultat se présente sous la forme d’un arbre de regroupement (S3). Après quelques tâtonnements la meilleure solution s’avère comporter 9 groupes d’items, ou facteurs.

Ils se répartissent en trois groupes.  Le premier est constitué de critères fonctionnels :  la facilité à l’usage du vêtement et de son entretien, ainsi que son caractère économique. Un second à caractère hédonique est constitué d’un seul facteur : le confort du vêtement. Le troisièmes est relatif au rapport que l’on veut établir avec les autres : se conformer à la mode ou à l’avis du groupe de référence, échapper au regard des autres par la discrétion, se distinguer et exercer une certaine séduction. On apprendra à personne que le vêtement se définit essentiellement par le regard des autres même s’il est occulté.

A partir de cette analyse, 9 scores sont calculés en faisant la moyenne des items qui se rapportent aux traits latents, puis en calculant le poids relatifs de chacun des facteurs dans l’attention prêtée à l’ensemble de ces critères. Quatre grand profils sont identifiés, ils sont de poids égaux ( slide 4) égaux. Un quart des personnes interrogées ne prend en compte que les aspect fonctionnels et hédoniques : pratique et confortable. Les trois autres segments se définissent en fonction du rapport qu’ils établissent aux yeux des autres :

  • la discrétion où la stratégie de l’invisibilité
  • la stratégie du conformisme entre les modèles et l’entourage
  • la logique du standing et le principe du classique

Les 3/4 des consommateurs sont sensibles au vêtement dans la mesure où il permet de définir le rapport avec les autres : celui d’un inclusion mais parfois d’une exclusion, la distinction et le conformisme, et même échapper au regard. Les indifférents sont m’oins d’un quart.

Même méthode pour analyser les situations d’achat ( Slide 5 et 6).  On y découvre que deux types de situations se distinguent : le dehors et le dedans. On laisse au lecteur le soin d’interpréter les subdivisions plus fines. Elles se construisent aussi sur une dimension d’intimité. On les retrouve dans le biplot, où l’on situe les marques ( slide 7). Le slide suivant (slide 8) sous d’apparence d’un cladogramme donne l’arbre généalogique ou phénotypique des marques. On y retrouve des familles qui ont du sens.

Faut-il conclure ? S’habiller, ou se déshabiller, est un art. Le vêtement soit -il réduit à un tatouage, un tressage de cheveux, des colliers, ou se fait-il de mètres tissés, tâffetés, plissés, enroulés, robes de princesses ou tourbillons de voiles, est un langage. Il exprime le rapport que l’on veut établir aux autres mais aussi celui que l’on veut entretenir avec son corps. Si la liberté d’expression est un des premiers droits de l’homme et de la femme, le droit de se déshabiller ou de s’habiller est le droit fondamental de dire ce que l’on veut dire.

Privacy : au-delà de la protection, l’éthique de la réciprocité

3148692599_828a88f117_oPréparé pour le Trust&Privacy Day , un départ ..– 19 mars 2016

Les utilisateurs assidus du web ont remarqué que de nombreux médias incitent leurs lecteurs à désactiver les adblockers, et à les inscrire en liste blanche, pour accéder aux contenus. Ils suivent aussi  l’affrontement entre Apple et le FBI à propos des backdoors. Ils ont aussi noté la fulgurante progression de Telegram qui assure le cryptage des données.

Quelques événements qui marquent l’importance persistante de la question de la confidentialité des données et de la protection de la vie privée. Au travers de ces faits on dénotera une d’inflexion de la problématique. Dans le cas de Apple, se révèle que le risque de la surveillance vient moins des entreprises que des Etats quand la sécurité prime sur la liberté, les premières ont a défendre la confidentialité, sinon elles s’expose à une désaffection et la crise de confiance. Avec le cas des adblockers c’est l’enjeu d’un contrat social implicite qui est remis en jeu : le développement du web presque gratuit repose sur l’acceptation de contraintes publicitaires, sa remise en cause conduirait vers un internet payant, plus réduit dans ses contenus et son accès, moins démocratique. C’est un contrat à renouveler.

Voilà qui soulève deux questions. La première est celle du paradoxe de la vie privé qui est en apparente contradiction avec ces faits, et justifie l’autorégulation de la profession publicitaire et de celle plus récente et plus large des professionnels des données. La seconde est relative à une politique qui ne se limite pas à la protection mais vise à donner des fondements plus solides à l’échange de données de qualité.

Le paradoxe de la vie privée vient d’une apparente contradiction entre l’inquiétude manifestée par les consommateur à l’égard de l’usage qui peut fait des données personnelles et des conduites plus insouciantes qui les amènent à agir souvent à découvert et parfois de manière risquée. Cette incohérence s’explique au moins de  trois manières.

La première est économique. Les risques sont futurs et peu probables ( usurpation d’identité, spamming, ..) alors que le bénéfice est immédiat, le calcul de vie privée donne alors l’avantage à l’action plutôt qu’à la protection. Cet argument est complété par une seconde explication : celle de la résignation. Quoique conscient des dangers, ayant le sentiment qu’on ne peut s’échapper à la surveillance, on se résigne et l’on se soumet. Le coût d’une protection inefficace conduit à renoncer à se protéger. Une troisième hypothèse s’appuie sur la théorie des niveaux de construit. Ce qui est lointain et abstrait fait l’objet d’un jugement différent de ce qui est proche et concret. Les deux jugements,  la préoccupation à l’égard des données personnelles et l’attitude positive au dévoilement de soi, coexistent s’appliquant en fonction des circonstances. Abstraite et concrète.

On pourrait se dire que l’adoption des Adblocks est en contradiction avec ces hypothèses. Pas tout à fait. Ils sont sans doute une réponse à l’aspect le plus irritant de l’utilisation des données : le caractère intrusif de certains modes de publicités (pensons aux vidéos qui s’imposent une dizaines de secondes avant de laisser voir le contenu), leur facilité d’installation et l’étendue du champs d’application encourage à leur adoption. Le moteur est émotionnel, leur adoption ne signifie pas qu’un plus grand effort de contrôle des données est produit. Leur particularité est le faible niveau d’engagement qu’ils demandent, contrairement aux outils VRM, à ceux de contrôle de ses données personnelles, et plus simplement les règles d’hygiène digitale (effacer ses cookies, utiliser des hétéronymes…). On rappellera que l’autre technique de protection à faible engagement s’appelle le mensonge et conduit à cette situation que si les flux de données ne tarissent pas, ils sont encombrés de scories et de données erronées.

On pourrait espérer que les individus se comportent plus rationnellement. Ce n’est pas faute d’information et d’éducation, inutile de les alerter des risques, ils le sont déjà. Ils agissent pourvu que les coûts de protection soit faibles : bloquer les pubs ou mentir. Ils sont partisans du moindre effort et réagissent moins en fonction des risques réels que des irritations. La responsabilité de l’initiative contre les actions frauduleuses, abusives ou dangereuses doit en conséquent être l’objet soit de la puissance de publique, soit des activistes, soit de l’industrie des données elle-même. D’un compromis entre les trois ce serait mieux.

La perspective ouverte est que si les consommateur sont réticents et vulnérables, il faut traiter le problème à leur place et faire en sorte non seulement qu’ils aient confiance mais en plus qu’ils ne soient pas agacés. Ceci nécessite de juguler les externalités de la publicité digitales et de l’utilisation massive des données : ce qui est mensonger, ce qui est trompeur, ce qui est erroné , ce qui est intrusif, ce qui est indiscret, ce qui est risqué. Dans ce domaine l’exemple des externalités environnementales donne des voies de réflexions : la pollution que l’on limite par des taxes, des droits, des contrôle, des incitations douces.  Certains économistes s’y sont attachés : Rao et Reiley donnent récemment un bel aperçu de l’économie du spam, et d’autres proposent des solutions intéressantes comme le  » Attention Bond Mechanism« , même si elles semblent difficiles à mettre en place.

L’auto-régulation prend une forme curieuse comme le fait Apple dont la bataille contre le Fbi a, même perdue, l’avantage de convaincre les consommateurs de la bonne volonté et de la bienveillance de la marque, sa capacité à prendre en compte les intérêts du consommateur. C’est un engagement fort. Il reste insuffisant car ne traite pas l’autre volet du problème.

Si les firmes privées peuvent assurer les consommateurs d’assurer l’intégrité de leurs données par ce type de position, y compris celle de l’engagement de ne les confier à aucun tiers sans l’autorisation explicite des consommateurs, les émetteurs de ces données, il n’est pas sur que cela se traduise par une meilleure acceptation des messages publicitaires. Même bien ciblée, au moins en terme de taux de clics, comme le fait le retargeting, la publicité reste un problème par la contrariété qu’elle suscite. Ecran bloqué, pop-up insistants, boite aux lettres encombrées.

Un élément cependant ouvre une voie. Lorsque le contenu est pertinent, qu’il vient d’une source crédible, fiable et qu’il est contrôlable, il est accepté. Le dévoilement de soi et l’acceptation des messages non sollicités sont liés principalement par le contrat qui nous lie à la marque. Un contrat implicite qui s’engage dans une logique de réciprocité. Dans les enquêtes les offres personnalisées sont acceptées volontiers alors que les popups sont systématiquement rejetés. Cette logique de réciprocité à l’heure de la transformation digitale doit s’étendre au données. Si on collecte des données, le principe de réciprocité invite à  les restituer de manière intelligente. Plus que ça, donner les moyens de contrôler les données : d’une part des instruments pour définir les paramètres de confidentialité, d’autre part un retour intelligible des données sous formes d’alertes, de recommandations ou de tableaux de bord. Des services.

25268289904_3cc26becd4_zCe principe de réciprocité est inscrit dans l’antique règle d’or que partagent de nombreuses pensée. C’est un objet de l’économie autant que que de psychologie sociale, une norme morale et sociale. Elle est d’autant plus précieuse dans le monde des données, que si ces dernières ne sont pas la propriété de ceux qui les génèrent, les consommateurs, ceux-ci disposent un droit de contrôle, et ceux qui les partagent ont une obligation de rendre compte à la fois de ce qu’il font pour respecter la vie privée mais aussi des effets sociaux qu’induisent l’usage agrégé de ces données. La réciprocité est ce système de paiement symbolique qui maintient la confiance, tourné vers l’intérêt de l’autre. La question est désormais de savoir quels types de dispositifs permettent de l’exprimer. L’engagement de confidentialité n’est pas suffisant, le cryptage est de plus en plus exigé, la restitution des données est une voie ouverte par la portabilité, le contrôle ( facile) des paramètres de confidentialité est une condition qui va s’imposer, d’autres mécanisme sont  à inventer pour maintenir vivante la réciprocité dans l’échange des données.

Ce donnant-donnant équitable appelle aussi à une autre approche des données. Elles sont moins des informations et des renseignements, que les inputs d’un processus de service dont la structure est celle d’un feed-back, ce que l’utilisateur donne lui reviens sous forme de notification, de recommandation,  de tableau de bord et d’actions. Pourvu que ce retour soit utile, apporte de la valeur et qu’il soit équitable.

Objets connectés : le client n’est plus au centre, c’est le réseau

4571397670_4787e6e102_zLe monde des objets connectés est en train de déployer ses essaims qui bientôt vont constituer des ruches bourdonnantes et des écologies complexes. Pour le marketing il y a de nombreux défis à relever simultanément pour assurer à ces colonies un développement équilibré.  Un moyen de mieux les envisager est d’examiner la structure minimale des relations entre les principaux acteurs associés dans ces écologie.

Ils sont au minimum quatre. L’usager bien sur qui est en relation avec d’autres et d’autres services, l’objet lui-même qui parle à d’autres objets, la plateforme de données qui échange avec d’autres plateformes et le fournisseur de services qui s’associe à d’autres aussi.

Si l’on prend l’exemple du Pay How You Drive, on retrouvera le compteur de qualité de conduite, l’assuré, la compagnie d’assurance et la plateforme qui gérera les données pour le compte de l’assurance et de l’assureur. Notons de suite qu’il y a peu de chance que l’assureur aura sa propre plateforme, il risquerait d’avoir une taille trop petite et ne bénéficierait pas des avantages d’une plateforme globale, et un modèle fermé empêcherait l’utilisateur d’exploiter ses données avec d’autres entreprises de service (rappelons-nous que la valeur des données n’est pas intrinsèque mais dépend de leur association), par exemple c’est le constructeur automobile pour des services de maintenance préventive. Il ne se confondra pas plus avec le constructeur de l’objet qui reste dans une économie industrielle où les volumes signifient des économies d’échelle et d’expérience indispensable pour soutenir la future bataille des prix.  D’autres acteurs peuvent s’immiscer : les commerçants qui peuvent vendre les objets, des prestataire de services qui peuvent accompagner l’assureur (imaginons que pour améliorer l’offre, on propose aux mauvais conducteurs qui ne bénéficieront pas des réduction, des stages de conduite sure….). Idem dans la domotique : le thermostat intelligent ne se confond pas forcément avec la plateforme (quoique), et certainement pas avec le fournisseur de services d’économie d’énergie ou mieux de surveillance.

objetconnecté05

Il y a naturellement dans cette répartition minimale la question du business model, autrement où se trouve la valeur : dans l’objet, dans la gestion des données, ou dans le service associé à cette gestion. Cette valeur se concrétise dans le consentement à payer pour chacun de ces trois éléments, et il est probable qu’elle évolue fortement. Aujourd’hui elle se trouve surtout dans l’objet car il est concret, plus tard certainement dans le service car c’est lui qui fait vivre l’objet, et plus tard encore lorsque les consommateurs réaliseront que leurs données sont utiles et qu’ils exigerons d’en être les maitres, en utilisant le droit à la portabilité de ses données pour les transférer d’une plateforme à l’autre et d’un service à l’autre.

Mais ce qui nous intéresse ici, ce sont les relations qui s’établissent entre les acteurs, et il y en a mécaniquement au moins cinq :

  • Nous venons d’évoquer la question de la portabilité dans la relation à l’usager avec la plateforme, c’est sans doute une question essentielle, même si elle ne se pose pas dans l’immédiat comme se pose celle de la sécurité. Cette relation la la plateforme est de part le rôle des tiers de service associé aussi à la politique de gestion de la vie privée définie à la fois par la plateforme de données et par le fournisseur de service.
  • En restant sur le point de vue de l’usager se pose aussi la relation à l’objet qui se pose en terme d’appropriation : comment l’objet va s’insérer dans l’écologie quotidienne de l’usager. Comment va-t-il faire sien un objet qui l’observe, le surveille, parfois le commande, ou qui peut disparaitre dans l’environnement matériel, même si la particularité de nombreux objets parce qu’ils sont connectés, sera d’avoir une vie propre quand leurs prédécesseur était invisible : un interrupteur, un compteur électrique, le moteur d’une voiture. Les objets parlent et cela change tout. La voiture qui était un prolongement du corps, connectée devient un médiateur entre l’environnement lointain et nous mêmes.
  • La relation au tiers de service est essentielle, car c’est elle qui fait vivre les objets. On réalise qu’on abandonne nombre d’entre eux à des taux élevé, car le seul feed-back ne suffit pas. Contrairement à ce que l’on pense nous n’avons pas forcément le désir de contrôler notre corps et notre environnement proche, c’est pourquoi sans coaching, assistance, ou sans avantage particulier dans la délivrance du service, les objets nous semblent rapidement inutiles. La place des tiers de service est d’accompagner ce feed back, de lui donner de la valeur en déchargeant l’usager de l’effort considérable que demande l’optimisation de ses conduites. La qualité du service et de la relation est essentielle. Sa justice aussi.
  • Mais ce n’est pas tout, on comprend que l’équilibre de l’ensemble va tenir dans la relation qui associe les plateforme et les tiers de services : la qualité de l’accès aux données, la qualité des algorithmes qui les exploitent est en back-office le socle fondamentale de la production d’un service de qualité. Et en la matière, il s’agit de big data, il ne suffira pas de plaquer des outils, il s’agira de les construire progressivement, et de les mettre à jour continuellement. Au-delà des données et des algorithmes de base, la valeur réside dans les savoirs-faire spécifiques.
  • Reste la relation des plateforme aux objets qui se concrétisement par la production du feed-back et l’acquisition des données. Cela peut sembler purement technique mais est essentiel car en dépend la qualité des données. Imaginons simplement que pour des raisons associé à l’objet, des rupture de charge dans la transmission des données se produisent. Le simple oubli de changer une pile peut la causer.

Derrière les objets concrets et tangibles c’est donc tout un réseaux de relations qu’il s’agit de gérer de manière équilibrée pour créer une véritable utilité chez les utilisateurs ( qui ne sont pas forcement les usagers mais sont aussi) et maximiser la propension à payer. Cet équilibre est d’autant plus difficile, qu’il n’est pas assuré que les intérêts des acteurs du réseaux soient toujours convergents. Dans le monde des objets, le client n’est plus au centre, c’est l’équilibre de l’écosystème. Et l’on en reparlera le Jeudi 15 novembre à l’Ieseg.

Analyse conjointe avec r

VinblancL’analyse conjointe est sans doute la méthode la plus spécifique du marketing, même s’il semble qu’elle soit un peu négligée de nos jours alors même que l’environnement digital en permettrait un renouveau. Dans cette note nous nous contenterons de présenter pas à pas, son application via le package Conjoint sur r , développé par Andrzej Bak et Tomasz Bartlomowicz.

Pour plus de détails sur la méthode elle-même on jettera un coup d’oeil en fin de post à une bien vieille note écrite avec Jean-claude Liquet, imparfaite mais utile au moins pour les étudiants. Pour un état de l’art récent on ira voir ce texte , pour des applications professionnelles on ira voir le site de Sawtooth.

L’exemple que nous utilisons est un jeu de donnée crée par une des étudiante du Master MOI, dans le but de tester le rôle de certain signes de qualité dans le choix d’un vin. La première étape de l’analyse conjointe consiste à choisir des attributs que l’on pense déterminant et à définir leur modalités. La seconde étape vise à générer des concepts à partir de ces attributs. Comme le nombre de combinaison devient rapidement important, on utilise généralement des méthodes de plan d’expérience incomplets ( toutes les combinaisons ne sont pas testées, et orthogonaux ( on s’arrange pour que les modalités apparaissent de manière équilibrée et non corrélées entres elle).

La procédure ici est très simple : on appele le package « conjoint », pis on créé le fichier vin qui va contenir les différents concept en définition les attributs ( variables : type, pays…) et leurs modalités (« doux, « demi-sec »,…). Le plan factoriel est défini par la commande caFactorialDesign avec ici deux options : le choix de l’option  » fractional », et une limite dans le nombre de concept que l’on a fixé à 13.


library (conjoint)
library (Rcmdr)
Vin<-expand.grid(
Type<-c(« Doux », »demi-sec », »sec »),
Pays<-c(« Bourgogne », »Bordeaux », »Italie-Nord », »Afrique du Sud »),
Marque<-c(« Millessima », »1jour1vin », »Nicolas »),
Prix<-c(« 7€ », »12€ », »20€ »),
Label<-c(« Médaille d’or « , »NC »),
Environ<-c(« Bio », »NC »),
Annee<-c(« 2014 », « 2011 »))
design_vin<-caFactorialDesign(data=Vin,type= »fractional »,cards=13)

Le résultat est obtenu avec

print(design_vin)

le voici :

        Var1           Var2       Var3 Var4           Var5 Var6 Var7
49      Doux      Bourgogne  1jour1vin  12€ Médaille d'or   Bio 2014
81       sec    Italie-Nord Millessima  20€ Médaille d'or   Bio 2014
95  demi-sec Afrique du Sud  1jour1vin  20€ Médaille d'or   Bio 2014
176 demi-sec    Italie-Nord    Nicolas  12€             NC  Bio 2014
208     Doux       Bordeaux    Nicolas  20€             NC  Bio 2014
221 demi-sec       Bordeaux Millessima   7€ Médaille d'or    NC 2014
360      sec Afrique du Sud    Nicolas   7€             NC   NC 2014
458 demi-sec      Bourgogne    Nicolas   7€ Médaille d'or   Bio 2011
558      sec       Bordeaux  1jour1vin   7€             NC  Bio 2011
586     Doux Afrique du Sud Millessima  12€             NC  Bio 2011
667     Doux    Italie-Nord  1jour1vin   7€ Médaille d'or    NC 2011
714      sec       Bordeaux    Nicolas  12€ Médaille d'or    NC 2011
842 demi-sec      Bourgogne  1jour1vin  20€             NC   NC 2011

Parmi les 3x4x2x3x2x2=288 concept possibles seuls 13 ont été choisis. Est-ce trop peu? Un moyen de tester celà est de calculer les corrélations entre les modalités. C’est une fonction offerte par le package :

design_vin2<-caEncodedDesign(design_vin)
print(cor(design_vin2))

En voici le résultat, et c’est entre la var 7 et 4 qu’on encourage la corrélation la plus forte. Dans la pratique on fait différent essais pour trouver le meilleur compromis. Dans notre exemple on se satisfera de cette solution.

Var1 Var2 Var3 Var4 Var5 Var6
Var1 1.0000000 0.15304713 0.10586263 -0.10586263 0.17593289 -0.17593289
Var2 0.1530471 1.00000000 -0.11216750 0.11216750 0.17605477 0.04142465

Var3 0.1058626 -0.11216750 1.00000000 0.23275862 0.08596024 0.08596024
Var4 -0.1058626 0.11216750 0.23275862 1.00000000 -0.08596024 -0.08596024
Var5 0.1759329 0.17605477 0.08596024 -0.08596024 1.00000000 0.07142857
Var6 -0.1759329 0.04142465 0.08596024 -0.08596024 0.07142857 1.00000000
Var7 0.1759329 -0.04142465 -0.08596024 -0.28653413 0.23809524 -0.07142857

La troisième étape est celle de la collecte d’information. On essaiera de donner plus de réalisme en proposant les concepts sous formes d’image (celle qui illustre le post en est un exemple) ou encore mieux sous la forme de maquette. Quant au nombre de sujet, une remarque importante est qu’il n’a pas de limite inférieure pour la raison simple que le modèle est calculé individu par individu : ce que l’on cherche c’est naturellement à prédire le classement des concepts à partir des profils, et cela individu par individu. Naturellement les conditions d’échantillonnage habituelles interviennent si l’on veut généraliser à une population, si l’on veut segmenter ou faire des comparaisons entre des groupes d’individus particulier. Dans notre exemple on se contente de 36 individus, c’est largement insuffisant pour généraliser, mais bien assez pour les vertus de l’exemple.

Le fichier de données recueillis par notre étudiante apparait sous la forme suivante : C1, C2,… représente le premier puis le second choix etc. Nous allons devoir le remettre en ordre pour qu’il puisse être traité.

ID SEXE C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13
1 1 homme 52 458 584 105 627 654 311 775 514 120 424 253 828
2 2 femme 105 775 52 458 828 654 253 311 627 120 584 514 424
3 3 homme 52 514 105 627 253 654 120 311 458 584 424 828 775
4 4 homme 52 584 105 627 775 654 120 311 458 514 424 253 828
….

L’ordre requis par le package est un fichier « long » qui énumère les individus, les concepts dans leur ordre de production, et le classement de ces concepts. Une petite manipulation doit être donc excecutée avec une fonction très utile de r : la fonction  » reshape » :

MemoireVin_rank3 <- reshape(MemoireVin_rank2, varying=list(c(« C1″, »C2″, »C3″, »C4″, »C5″, »C6″, »C7″
, »C8″, »C9″, »C10″, »C11″, »C12″, »C13 »)), idvar = « ID », v.names= »concept »,direction = « long »)

 

On trie le fichier ensuite avec

MemoireVin_rank4<-MemoireVin_rank3[order(MemoireVin_rank3[,4],decreasing=F),]
MemoireVin_rank4<-MemoireVin_rank4[order(MemoireVin_rank4[,1],decreasing=F),]

 

et l’on crée un fichier de label pour l’esthétique:

l’analyse conjointe proprement dite peut être exécutée avec la simple commande :

Conjoint(MemoireVin_rank4$concept,design_vin2,label)

 

qui produit les résultats principaux suivants: c’est à dire les utilités partielles ( path-worth) et le poids des attributs (on omet le modèle de régression et les tests associés qui sont redondants)

Residual standard error: 3,448 on 442 degrees of freedom
Multiple R-squared: 0,175, Adjusted R-squared: 0,1526
F-statistic: 7,811 on 12 and 442 DF, p-value: 2,991e-13
[1] « Part worths (utilities) of levels (model parameters for whole sample): »
levnms utls
1 intercept 7,3099
2 Doux 0,1999
3 demi-sec 0,8055
4 sec -1,0054
5 Bourgogne -0,9406
6 Bordeaux 0,5748
7 Italie-No -0,1933
8 AfriqueSud 0,5591
9 Millessima 0,5693
10 1jour1vin-0,9083
11 Nicolas 0,3389
12 7€ -0,901
13 12€ -0,6254
14 20€ 1,5264
15 Médaillor-0,0999
16 NC 0,0999
17 Bio -0,7956
18 NC 0,7956
19 2014 -0,8828
20 2011 0,8828
[1] « Average importance of factors (attributes): »
[1] 17,58 18,68 14,39 20,87 8,40 10,53 9,54

 

On notera d’emblée u r2 proche de 17,5%, ce qui signifie que l’on reconstitue imparfaitement les préférences mais de manière significative : le test d’analyse de variance l’est à moins de 1 pour 1000. D’autre facteurs interviennent mais n’ont pas été pris en compte : forme de la bouteille, étiquette, Chateau etc. Les path-worth représente le gain en terme de rang qui est obtenus : les valeurs négative signifie simplement qu’on améliore le classement avec la présence de la modalité. Par conséquent le profil préféré est un vin sec, de type bourgogne, vendu par 1j1vin à 7 euros, bio et ayant reçu  une médaille, et plutôt jeune. On s’aperçoit que le prix pèse vous 21% suivi par l’origine et le type de vin, la médaille et le millésime comptant pour peu.

La commande produit aussi de manière automatique les graphiques de profil d’utilité correspondants :

Poursuivons la procédure. Ces résultats généraux sont une chose, mais on souhaite avoir des résultats plus individualisés. Les commandes suivantes nous permettent de générer un fichier des utilités individuelles :

upartial<-caPartUtilities(MemoireVin_rank4$concept,design_vin2,label)
newData <- as.data.frame(upartial)
newData
names(newData) <- make.names(names(newData))

L’analyse conjointe à ce stade est achevée et nous pouvons en exploiter les résultats. A titre d’exemple on peut s’interroger sur le poids des attributs dont on se dit qu’ils peuvent varier selon le degré d’expertise des consommateurs. Pour vérifier cette proposition, il va falloir d’abord transformer les utilités des modalités en importance des attributs. La formule générale est simplement Wk = abs(Min(ki)-Max(ki)/ somme(abs(Min(ki)-Max(ki)), k représente l’attribut, i les modalités des attributs. Le code est simple même si un peu lourd.

#calcul des importances

MemoireVin_rank$x_type<-abs(MemoireVin_rank$Doux-MemoireVin_rank$sec)
MemoireVin_rank$x_Origine<-abs(MemoireVin_rank$Bourgogne-MemoireVin_rank$Afrique.du.Sud)
MemoireVin_rank$x_Enseigne<-abs(MemoireVin_rank$Millessima-MemoireVin_rank$Nicolas)
MemoireVin_rank$x_Prix<-abs(MemoireVin_rank$X7.-MemoireVin_rank$X20.)
MemoireVin_rank$x_Medaille<-abs(MemoireVin_rank$Médaille.d.or-MemoireVin_rank$NC)
MemoireVin_rank$x_Bio<-abs(MemoireVin_rank$Bio-MemoireVin_rank$NC)
MemoireVin_rank$x_Millessime<-abs(MemoireVin_rank$X2014-MemoireVin_rank$X2011)
MemoireVin_rank$x=MemoireVin_rank$x_type+MemoireVin_rank$x_Origine+MemoireVin_rank$x_Enseigne+MemoireVin_rank$x_Prix+MemoireVin_rank$x_Medaille+MemoireVin_rank$x_Bio+MemoireVin_rank$x_MillessimeMemoireVin_rank$x_type<-MemoireVin_rank$x_type/MemoireVin_rank$x
MemoireVin_rank$x_Origine<-MemoireVin_rank$x_Origine/MemoireVin_rank$x
MemoireVin_rank$x_Enseigne<-MemoireVin_rank$x_Enseigne/MemoireVin_rank$x
MemoireVin_rank$x_Prix<-MemoireVin_rank$x_Prix/MemoireVin_rank$x
MemoireVin_rank$x_Medaille<-MemoireVin_rank$x_Medaille/MemoireVin_rank$x
MemoireVin_rank$x_Bio<-MemoireVin_rank$x_Bio/MemoireVin_rank$x
MemoireVin_rank$x_Millessime<-MemoireVin_rank$x_Millessime/MemoireVin_rank$x

En voici les résultats réalisé avec la commande plotMeans du package Rcmdr (la fonction x11() permet d’ajouter les graphiques), on s’apercevra que ceux qui se sentent experts donne un poids plus important au caractère bio et au prix, tandis que les novices accordent plus d’attention à la médaille, au millésime et à l’origine, alors que ceux qui se sentent un degré modéré d’expertise favorisent l’enseigne et le type de vin. Sans aller plus loin dans l’analyse on obtient un résultat général clair : on n’utilise pas les mêmes critères selon le niveau d’expertise, ce qui est assez logique. On laissera au lecteur le soin d’aller plus loin.


x11()
plotMeans(MemoireVin_rank$x_type, MemoireVin_rank$EXPERTISE_PERCUE, error.bars= »none »,xlab= »Connaissance »,main= »Type »,cex.lab=1)
x11()
plotMeans(MemoireVin_rank$x_Origine, MemoireVin_rank$EXPERTISE_PERCUE, error.bars= »none »,xlab= »Connaissance « ,main= »Origine »,cex.lab=1)
x(11)
plotMeans(MemoireVin_rank$x_Enseigne, MemoireVin_rank$EXPERTISE_PERCUE, error.bars= »none »,xlab= »Connaissances « ,main= »ENseigneG »,cex.lab=1)
x11()
plotMeans(MemoireVin_rank$x_Medaille, MemoireVin_rank$EXPERTISE_PERCUE, error.bars= »none »,xlab= »Connaissances « ,main= »Medaille »,cex.lab=1)
x11()
plotMeans(MemoireVin_rank$x_Bio, MemoireVin_rank$EXPERTISE_PERCUE, error.bars= »none »,xlab= »Connaissances « ,main= »BIO »,cex.lab=1)
x11()
plotMeans(MemoireVin_rank$x_Millessime, MemoireVin_rank$EXPERTISE_PERCUE, error.bars= »none »,xlab= »Connaissances « ,main= »Millessime »,cex.lab=1)
x11()
plotMeans(MemoireVin_rank$x_Prix, MemoireVin_rank$EXPERTISE_PERCUE, error.bars= »none »,xlab= »Connaissances « ,main= »Prix »,cex.lab=1)

Généralement on cherchera à segmenter notamment pour identifier les groupes de consommateurs qui partagent les mêmes attentes. Ici on emploie les fonctions d’analyse hierarchique ( méthode de ward) fourni par l’interface graphique Rcmdr qui a déja été appelée, en choisissant la solution à trois groupes et en l’illustrant par le biplot. le code correspondant est le suivant ( mais en fait on s’est contenté d’utiliser le menu)


HClust.1 <- hclust(dist(model.matrix(~-1 + x_Bio+x_Enseigne+x_Medaille+x_Millessime+x_Origine+x_Prix+x_type, MemoireVin_rank)) , method= "ward") plot(HClust.1, main= "Cluster Dendrogram for Solution HClust.1", xlab= "Observation Number in Data Set MemoireVin_rank", sub="Method=ward; Distance=euclidian") summary(as.factor(cutree(HClust.1, k = 3))) # Cluster Sizes by(model.matrix(~-1 + x_Bio + x_Enseigne + x_Medaille + x_Millessime + x_Origine + x_Prix + x_type, MemoireVin_rank), as.factor(cutree(HClust.1, k = 3)), colMeans) # Cluster Centroids biplot(princomp(model.matrix(~-1 + x_Bio + x_Enseigne + x_Medaille + x_Millessime + x_Origine + x_Prix + x_type, MemoireVin_rank)), xlabs = as.character(cutree(HClust.1, k = 3)))

les profils apparaissent dans le tableau : le groupe 1 donne plus de poids à l’origine et au type, le groupe 2 à l’enseigne et au caractère bio, le groupe 3 au prix et au millesime. O peux penser que le premier favorise les goûts de l’individu, le second le style d’achat, et le troisième un certain rapport qualité/prix. On retrouve ainsi ce grand classique des avantages recherchés!


INDICES: 1
x_Bio x_Enseigne x_Medaille x_Millessime x_Origine x_Prix
0.07147493 0.10822056 0.09169431 0.11697915 0.22503436 0.19621573
x_type
0.19038097
————————————————————
INDICES: 2
x_Bio x_Enseigne x_Medaille x_Millessime x_Origine x_Prix
0.17373411 0.19015292 0.15400115 0.05344901 0.07003827 0.16861833
x_type
0.19000620
————————————————————
INDICES: 3
x_Bio x_Enseigne x_Medaille x_Millessime x_Origine x_Prix
0.07657425 0.13635953 0.12456815 0.29134291 0.04337232 0.25255357
x_type
0.07522927

 

 

 

Big data, plateformes et business models

3109465935_cf6f2a4263_bLa vidéo complète d’une conférence donnée le 23 juin à la CGC Orange. La vidéo n’est pas d’aussi bonne qualité que l’originale tournée par leurs équipe (pour la faire tenir dans les limites de Viméo), mais l’image de toute façon est sans doute moins intéressante que la parole et un podcast aurait sans doute suffit!

Il y a là un bon concentré des idées que je développe depuis quelques mois. Pour le crédit photo juste un vol d’étourneau, c’est au fond une bonne métaphore du nuage et du calcul distribué qui produit des formes sans forme, une organisation sans centre mais efficace pour s’adapter, et dans le cas des oiseaux échapper aux attaques des rapaces…

Conférence Big Data CGC Juin 2015 2 from Christophe Benavent on Vimeo.