#Sondages : En attendant l’élu

macron04Chaque jour amène son lot de sondages suscitant plus d’interrogations que de conclusions.

Pour le spécialiste des données c’est un merveilleux bac à sable, surtout quand la foule s’attache à en maintenir l’inventaire comme le fait Wikipédia.

Ce sont les données avec lesquelles nous allons nous amuser après avoir fait un peu de nettoyage et de mise en forme. Quelques jeux avec ces packages rares et précieux qui font de r une planète à explorer, une caverne d’Alibaba, un supermarché magique du nombre.

En voici une visualisation pour les 6 principaux adversaires en termes d’intention de vote. Les données sont représentée séquentiellement en fonction du temps. Les aspérités correspondent aux jours où plusieurs sondages ont été publié le même jour. On a lissé les données sur une fenêtre de 3 jours de manière exponentielle (lambda=0,5).

évolution sondage pdt2017

Macron et Le Pen sont aux coudes à coudes, Fillon est largué et semble à peine retrouver de l’air pour respirer, Hamon s’effondre avec une belle détermination, Mélanchon surgit et s’accroche à la roue de vélo de Fillon – allez encore un coup de mollet, l’autre est cuit- , Dupont Aignan s’accroche, avec un peu d’effort il sera peut être remboursé – il pique des coups de bec dans la carcasse c’est de Fillon.

Un premier jeu est naturellement celui du pronostic. Depuis les travaux de 538 les méthodes d’analyses évoluent et se sont ouvertes aux méthodes bayésiennes. Voici en quelques lignes une méthode pour établir un pronostic. Du moins une esquisse de ce qu’on pense être ce qui est utilisé par les spécialistes qui ne donnent pas toujours beaucoup de détails sauf @freakonometrics que signale @bayesreality. Les valeurs initiales sont les moyennes des trois derniers sondages publiés au 11/04/2017.

L’idée principale est que les sondages nous donne moins un résultat qu’une information a priori, lecture est insuffisante pour établir le pronostic. Celui-ci doit prendre en compte la variabilité inhérente aux sondages et fournir une idée plus précise des distributions associées. L’utilisation d’un modèle de distribution de probabilités est indispensable, il servira à générer un grand nombre de variantes possibles à partir de  cette première donnée. On simulera 100 000 échantillons pour saisir les configurations les plus inattendues.

Dans le cas d’un premier tour d’élection le bon modèle est celui de Dirichlet. Les résultats du sondage servent de probabilité a priori dans une perspective bayésienne. Pour estimer plus précisément le modèle, on peut  inclure aussi compte le nombre de répondant qui détermine la dispersion des probabilités de choix. Dans notre cas nous choissisons un paramètre de 250, pour tenir compte qu’empiriquement les échantillons utilisés sont deux fois moins précis que ce que la théorie pronostique. Avec r ceci se traduit par peu de lignes.

set.seed(789)
N <- 100000
probs <- c(.233 , .238, .187, .181, .092, .037 )    # define (extremal) class probabilities#alpha0 = 250  -> pour tenir compte de l’erreur réelle, on divise par 4 l’échantillon moyen utilisé car on l’stime au double des valeurs théorique.
alpha0 <- 250
alpha <- alpha0*probs
alpha <- matrix( alpha , nrow=N , ncol=length(alpha) , byrow=TRUE  )
alpha
x <- dirichlet.simul( alpha )

Les résultats sont donnés dans les deux diagrammes suivants. Le premier donne la distribution des probabilités de choix pour chacun des candidats, le second la distribution de probabilité d’arrivée en tête. Seul deux candidats ont une chance, sur la base des trois derniers sondages, Marine Le Pen a une toute petite avance sur Macron.

Naturellement ce qui interroge d’abord c’est la dynamique des hésitations et le jeu des reports. Qui prend à qui? L’analyse des corrélations peut nous donner une première idée. On y notera la nette corrélation négative entre les intentions de vote pour Hamon et Mélanchon – la piscine se vide- , tout autant qu’un lien positif entre celle pour Mélanchon et de manière surprenante pour Dupont-Aignan? Est-ce l’axe souverainiste? Pour Macron le point intéressant est qu’il est peu lié aux autres, il n’attire pas de camp particulier – sauf celui des modernes de tout les camps! à l’exception de Hamon – la piscine se déverse dans un second bassin. Fillon et Le Pen se déchirent ce qui reste de l’électorat de droite.

L’analyse de ces corrélations doit être prudente car elle suppose qu’elles restent stables dans le temps.

L’étude de cette dynamique va nous fournir un troisième jeu. A cette fin on utilise le package Roll de r et sa fonction roll_corr. Il s’agit de calculer une corrélation glissante en fonction du temps, selon une fenêtre d’observations ( ici 16 j) et une pondération exponentielle (0,9). 8 des 15 couples figurent dans la diapo 3.

Ces corrélations sont intéressantes, mais se lisent difficilement. Un premier résultat est la forte fluctuation des corrélation qui passent du positif au négatif, seraient-elles ératiques?  Le cas Hamon Melanchon est le plus clair, la corrélation devient de plus en plus négative, indiquant le sens de la conversion : Mélanchon monte de plus en plus parce que Hamon lui fournit ses bataillons. DAns tout les cas il n’y a pas de stabilité dans le temps, les rapports de forces varient, passe d’un pivot à l’autre.

Puisqu’il s’agit d’une matrice de corrélation on peut l’analyser avec une  ACP toute aussi glissante que nos corrélations, c’est une ACP dynamique. Le même Package Roll nous fournit la solution avec une fonction très simple Rool_eigen

—–
Corollb<-roll_eigen(Coroll, 20, min_obs = 1)
—–

On produit ainsi une série d’Acp pour chaque élément de la séquence des sondages. En voici ci dessous des exemples à t=20,40, 50,70. On peut y lire les moment de la campagne. Pour son moment le plus récent on voit clairement l’attraction de Mélanchon s’exercer sur toute les factions. Le début de campagne était plus classique dans une opposition des forces de droite et de gauche.

Il y a encore beaucoup de jeux possibles. Et nos codes sont faits à l’arrache. Une chose est sure, la statistique gagne avec ces élections, jamais on a autant calculé, et jamais on a été autant surpris. C’est que les structures de vote deviennent plus subtiles, et demandent des méthodes plus fines, plus riches, plus interprétative.

Nous n’avons pas été au bout de l’excercice, nous n’avons pas combiné les deux tours. Nous n’avons pas exploré toutes les régularisations possibles de nos modèles. Nous voulions juste inviter le lecteur à explorer les nouvelles ressources des DataSciences pour comprendre plus que pour prévoir les ressorts d’une élection à la présidence.

PS: et si quelqu’un a envie de faire du code propre, le mien est crasseux. Le tableau de donnée et le script r sont à disposition. Just mail me.

 

 

 

 

Satisfaction : en finir avec la malédiction

15602367155_e20626947f_zAucun autre texte que celui des Rolling Stones n’exprime mieux le problème de la satisfaction : son incapacité à produire un état de bien-être durable. Il dit l’essentiel d’une société de consommation où la sollicitation crée la frustration et l’amélioration des conditions matérielles ne change pas la ligne du bonheur.

De nombreuses firmes désormais incluent la mesure de la satisfaction, ou d’autres indicateurs comme le NPS, parmi les KPI pour mieux piloter l’entreprise, en en faisant un instrument de mesure externe (compétition) et interne (benchmarking), mais aussi longitudinal (apprentissage).   Mais elles se heurtent à un fait : il s’avère que dans le temps, les indices de satisfaction varient peu, les données de l’Asci en rendent compte : les satisfaction indicevariations intersectorielles sont plus importantes que les variations temporelles. Ainsi dans le graphe suivant, où nous avons pris soin de prendre en compte toute l’étendue de l’échelle de l’ACSI, que l’on pense bien faite, et à partir de leurs données, on s’aperçoit de la stationnarité de l’index, et plus remarquable encore de celle d’un secteur, la TV où sur la période des amélioration notables ont été apportés au produit : réduction de l’épaisseur des écrans, accroissement de leur luminosité, multiplication des fonctions et services associés et naturellement digitalisation. Les efforts des industriels ont-ils été vains?

Il peut être intéressant d’examiner la dynamique de la satisfaction en revenant à son modèle le plus simple pour s’interroger sur une hypothèse remarquable, celle de la malédiction de la satisfaction. Celle-ci peut s’exprimer de la manière suivante : si les efforts réalisé par les entreprises pour améliorer la qualité peuvent conduire dans l’immédiat à une augmentation de la satisfaction, sur le long terme cet accroissement de la qualité peut engendrer une élévation du niveau des attentes, réduisant ainsi les gains de satisfaction. Le jeu concurrentiel entretient ce processus et conduirait ainsi à l’observation d’une stabilité des indices satisfaction.

En réalité peu d’articles se sont penchés sur la question théoriquement et empiriquement (on trouvera leur références en fin d’articles)  même si certains champs de la la psychologie, peuvent nous permettre de mieux justifier cette hypothèse, nous y reviendrons un peu plus loin. Ce vide relatif a longtemps été le résultats de ceux que les mesures longitudinales ne sont pas si faciles à obtenir, mais aujourd’hui on dispose de telles bases et il y a certainement matière pour renouveler la recherche dans le champs. Ceci dit le travail empirique n’est pas le seul chemin  pour saisir cette dynamique. La simulation peut être un excellent moyen de la comprendre. En voici une esquisse.

Revenons au modèle de la satisfaction. L’élément principal réside dans la notion de confirmation : si les attentes (At) sont supérieures à la qualité perçue (Qt), un effet négatif de cette différence joue sur la satisfaction (St). Peut s’y ajouter une certaine inertie de la satisfaction, et des éléments aléatoires (humeurs, situation, mesure…). Cela se modélise aisément par

S(t)=αA(t)-Q(t)) +βS(t-1)+ε(t)

Les attentes sont certainement déterminées par leur état antérieur (inertie) et le niveau de satisfaction éprouvé précédemment (plus on est satisfait et plus les attentes sont augmentées) :

At=φA(t-1) + δS(t-1) +μ(t)

De même la qualité perçue dépend du jugement précédent de qualité (inertie), de l’état de satisfaction précédent et de la politique de qualité de l’entreprise qu’on représente par Kt..

Q(t) =θQ(t-1)+γS(t-1) + K(t) +ν(t)

En itérant les équations dans le temps, et en répétant ces itérations un grands nombre de fois on peut étudier par une méthode de Monte-Carlo le comportement de ce systèmes et surtout des perturbations qui peuvent lui être apportés. C’est ce que nous avons fait. Mon ami et collègue Amine Benabi a donc mis celui en musique sous r (cette version est encore sommaire, le modèle n’a pas été calibré. Elle est consultable sur demande) . En voici le résultat d’une première formalisation où nous suivons la dynamique sur 300 périodes, le processus ayant été répété 1000 fois. Chaque courbe représente la moyenne des 1000 simulations.

satisfaction

Dans l’initiation du processus, on a pris volontairement une valeur très élevée des attentes au regard de la qualité perçue, on s’aperçoit que très rapidement un réajustement s’opère : les niveaux de satisfaction et de qualité perçue se confondant, ce qui va d’ailleurs dans le sens de cette vieille argumentation à l’égard de la satisfaction dans les services qui considèrent qu’on peut difficilement les distinguer et justifie le modèle Servqual.

A l’itération 100, nous avons « choquer » le modèle en introduisant une réduction brutale des attentes. Un tel phénomène est ce que free a produit en se lançant dans le marché du mobile avec une offre a petit prix, produisant chez les consommateurs une modification sensible de leur niveau d’attente en terme de qualité de service, dans les mois qui ont suivi d’ailleurs la marque s’est retrouvée avec un niveau de satisfaction plus élevé que ses concurrents, et c’est bien ce que l’on retrouve : un rebond de la qualité/satisfaction perçue.

Mais à long-terme on s’aperçoit que le niveau de disconfirmation retrouve son niveau et fluctue très faiblement. Les oscillations des autres indicateurs par la suite traduisent une marche au hasard, qui résultent des éléments aléatoires introduit dans le modèle.

On peut regarder de plus près ce qui se passe au moment de la perturbation en examinant la distribution de l’indicateur de satisfaction au travers des 1000 essais. On s’aperçoit que le changement du niveau d’attente produit une élévation du niveau de satisfaction, mais aussi un accroissement de sa variabilité! Avec le temps l’adaptation joue non seulement dans le sens d’une réduction de la satisfaction, mais aussi avec une réduction de la variance de la satisfaction.

boxplot satisfaction

Il faudrait naturellement systématiser l’analyse, en formulant d’abord un modèle réaliste, au moins dans ses paramètres ( dont on retrouvera aisément des valeurs plausible dans la littérature et en multipliant les expériences de  » choc »), mais aussi dans la définition des variables ( par exemple on ne tient pas compte des aspects normatifs de l’attente : elle dépend aussi des attentes des autres!) . Mais cette illustration suffit à confirmer que l’analyse de la dynamique rend compte d’une certaine stationnarité de la satisfaction. Ceci a des conséquences en terme de barométrie :

  • c’est sur les impacts à court terme qu’il faut centrer l’attention. Les variations de satisfaction ont de sens que consécutives à une action donnée. Il faut se concentrer sur l’impact des événements plus que sur la trajectoire générale.
  • La satisfaction doit être comparée à des référents. Se dégrade-t-elle par une élévation trop rapide des attentes ou par une amélioration insuffisante du sentiment de qualité ?
  • Ce mécanisme jouant à l’échelle du secteur, ce sont les différences relatives entre les concurrents qui sont les plus significatives. Encore faut-il savoir si de l’un à l’autre le paramètrage est identique! Certaines marques peuvent ainsi connaitre des niveaux d’inertie plus forte que les autres.

Plus profondément cela mène à réfléchir aux conditions d’une stratégie centrée sur la satisfaction. L’amélioration continue, stimulée par l’innovation concurrentielle risque de buter sur des attentes croissantes. La seule issue est une disruption : si en repensant l’offre, le modèle d’attente change qualitativement. C’est ce qui se passe ici  où l’on représente les conséquences d’une baisse brutale du niveau d’attente (car il prend une nouvelle forme qualitative). Dans les périodes suivantes la satisfaction se remet à croître jusqu’à ce que la « malédiction » reprenne le dessus. Le modèle de gestion de la satisfaction pourrait ainsi ne pas être simplement progressif, il demanderait des ruptures régulières passant sans doute par des changements de convention d’attentes et de qualité.

Reste sur le plan théorique à mieux comprendre les ressorts psychologiques de ces phénomènes d’adapation. Et sur ce plan on est pas démuni comme la contribution de Martin-Krumm, Lyubomirsky et Nelson le démontre. Le modèle de l’Adaptation Hédonique aux Evenements positifs et négatifs (HAPNE) du courant de la psychologie positive, peut nous amener à mieux comprendre les processus à l’oeuvre, et à répondre à cette question de méthode que Christian Barbaray m’a posé il y a quelques semaines : comment relier des mesures de satisfaction à chaud, associée à des événements particulier, à la mesure baromètre, à froid, de ce qu’on appele ordinairement satisfaction cumulée.

Je ne résiste pas à reproduire ici un des schémas du chapitre pré-cité ( il y en a un autre pour le domaine négatif, voir le texte ) :

HAPNE positif

On y retrouvera l’hypothèse que nous avons testée par simulation et quelques autres pistes d’actions : l’augmentation des émotions positives qui correspond à certaines pratiques de l’expérience client,  la production d’événement surprenants et variés (et voilà qui donne une bonne explication à l’activité incessante et créative d’une marque comme coca-cola), ou aux tactiques visant à mettre en valeur les changement.

Et l’on sera tenté de se dire que finalement le maintien et l’accroissement de la satisfaction n’est pas tant que question de répondre aux attentes, mais comme les vieilles star du rock savent le faire, de mettre en scène continuellement les variations d’un même motif, et que plutôt qu’une innovation en profondeur, ce dont les marques ont besoin n’est peut-être simplement que d’inventer de nouvelles soupes dans de vieux pots.

Quelques références

  • Martin-Krumm, Lyubomirsky et Nelson (2012) « Psychologie positive et adaptation : quelle contribution? » in Psychologie de l’adaptation – direction de : Cyril Tarquinio, Elisabeth Spitz, De Boeck Supérieur
  • Homburg, C., Koschate, N. & Hoyer, W.D., 2006. The Role of Cognition and Affect in the Formation of Customer Satisfaction: A Dynamic Perspective. Journal of Marketing, 70(3), p.21–31.
  • Bruhn, M. & Frommeyer, A., 2004. Development of Relationship Marketing Constructs Over Time Antecedents and Consquences of Customer Satisfaction in a Business-to-Business Environment. Journal of Relationship Marketing, 3(4), p.61.
  • LaBarbera, Priscilla A., and David Mazursky.1983. « A Longitudinal Assessment of Consumer Satisfaction/Dissatisfaction: The Dynamic Aspect of the Cognitive Process. » Journal Of Marketing Research (JMR) 20, no. 4: 393-404.

#WebblendMix bigdata : des études à l’action

22570466075_1ec1c3c91f_zLe #Web blend Mix 2015 est enthousiaste, Lyonnais et cool. Ravi d’y avoir été invité.

Quand au message à transmettre pendant la conf, c’est celui que je répète. Les données ne sont pas destinées principalement aux études, on en a déjà bien assez, et les données sans théorie sont comme l’eau sans conduite : elle se disperse et ne font rien pousser.

Les données sont là pour agir, agir en masse et de manière précise, elle fournissent le renseignement nécessaire pour activer une appli, préparer un vendeurs, motiver un acheteur. Elles ne sont rien sans les algorithmes, et les algorithme ne sont rien sans la compréhension des situations d’usage. Le big data en marketing crée de la valeur s’il est associé à un effort intelligent de modélisation, et si cette modélisation prend en compte le contexte social : le caractère performatif et politique des dispositions.

On concluera in fine, que l’usage intensif risque de s’accompagner d’une exigence sociale : celle de rendre compte des effets de cet emploi des données et des algorithme.

 

Mobile In Store : ça dépend du shopping style

14930205588_38c71f399f_oLes enquêtes se succèdent et semblent confirmer l’intérêt des consommateurs pour l’utilisation en magasin du digital et avant tout de leur smartphone. Une de nos étudiantes du master Marketing de Paris Ouest, Joanna Stroz, s’est intéressée à la question dans un mémoire qu’elle soutiendra bientôt au travers d’une enquête (n=330) dans le domaine de la parfumerie. On trouvera son questionnaire ici (n’hésitez pas à y répondre!).

UsageMobileLes questions principales sont relatives à l’intérêt accordé à une dizaine de services ( recevoir des informations sur les évènements en magasins, recevoir des conseils personnalisé via le smartphone etc…). Les résultats enregistrés par une échelle d’intérêt allant de 1 à 7, sont résumés dans le graphique ci-contre.  Recevoir un conseil personnalisé recueille un score d’intérêt très moyen (3,5), l’échange de point de fidélité et l’obtention de coupon entraine une forte adhésion.

Au fond le digital ne change pas grand chose : les consommateurs veulent d’abord des avantages pécuniaires et si c’est plus facile par le mobile tant mieux. Si l’on compare les hommes et les femmes, quelques petites différences apparaissent : les femmes cherchent les avantages monétaire plus que les hommes, tandis que ceux-ci expriment un intérêt plus fort pour le paiement via le smartphone ou être mieux orientés par la géolocalisation.

Mais dans cette étude le plus important n’est pas là, il réside dans les causes probables qui rendent chacune de ces applications intéressantes. Parmi ces causes un petit nombre a été étudié de plus prêt. D’abord des variables générales telles que la tendance à adopter la nouveauté ( innovativité), le degré d’implication dans la catégorie de produit, l’inquiétude que l’on témoigne à l’égard de ce qu’on fait de nos données ( Privacy Concern) et enfin le degré d’expérience digitale.

Ensuite des variables qui décrivent les  orientations d’achat des consommateur : faire des économie en profitant des promos et bonnes affaires, la tendance à planifier ses achats, le plaisir tiré à découvrir et à fouiner dans les rayon ( hédonisme), le fait de s’appuyer sur les marque et la fidélité au magasin, et la reconnaissance souhaitée dans le point de vente. Pour évaluer l’importance de ces variables on a simplement chercher à expliquer l’influence de ces dernières sur le score d’intérêt, par des régressions multiples ( une par application). Les résultats détaillés apparaissent dans le tableau suivant que nous analysons ensuite.

regressions2

Les faits principaux que l’on peut identifier sont les suivants :

  1. l’expérience en matière digitale n’ aucun impact, aucun des coefficients de régression n’est significatif, sauf pour les conseils personnels : conseiller les clients via le smartphone n’a d’intérêt que pour les geek!
  2. L’implication pour la parfumerie est un déterminant très significatif pour la plupart des applications, sauf pour le paiement. Le web In store concerne donc d’abord les fans de la cosmétiques.
  3. La tendance à adopter de nouveaux produits, ou de nouvelles manières d’acheter a un effet contrasté : il joue pour le conseil, le paiment, les QR code et la geolocalisation. On retrouve le côté geek, et c’est à se demander si ce n’est pas le fait d’hommes qui s’ennuient dans ce type de magasin, l’usage du smartphone palliant le désintérêt pour la boutique.
  4. La privacy a aussi un effet contrasté et négatif comme attendu. Il joue sur les aspects qui implique le plus d’intimité
  5. Quand aux orientation d’achat c’est un tableau très nuancé qui apparait et démontre que l’usage du smartphone est étroitement liés aux stratégies de consommation.
    • La recherche d’économie n’a quasiment aucun impact sur l’usage d’appli In store, sauf recevoir des coupons.
    • La recherche de variété et le plaisir de la découverte (hédonisme) est le facteur qui a un impact sur la plus grande variété d’applications, ce qui est peu étonnant : ceux qui cherche du divertissement dans l’acte d’achat en cherche autant dans les produits que dans le shopping lui-même. Le smartphone est un jouet.
    • La tendance à planifier les achats a peu d’impact ou alors négatif : c’est le cas des jeux et concours et celui des alertes sur la disponibilité des produits. L’acheteur organisé n’aime pas les prothèses numériques!
    • Quant à ceux qui sont attachés aux marques et vont toujours dans le même point de ventes, ce qui traduit une sorte d’achat ritualisé ( plus que de la fidélité), vont être plus intéressés aux applis qui leurs procurent des avantages consistant. Le smartphone optimiserait leur rituel!
    • Pour finir, plus on tend à souhaiter être reconnu plus on sera intéressé par les alertes produits où les évènements, l’impact étant nul pour les autres orientations.

Les enseignements sont assez clairs. Le premier est que la notion d’intérêt pour le « Web In store » n’a pas de sens en général. L’intérêt pour les applications digitales dépend d’abord de la manière dont on fait ses courses, et de comment les appareils fournis permettent au consommateurs d’atteindre les buts qu’il se fixe.

Le second est que le driver principal de l’adoption de béquille digitale pour le shopping dépend principalement de l’intérêt que l’on a dans la catégorie de produit, et non pas de la familiarité que l’on a avec les outils. Cela conduit à la réflexion suivante : le digital n’est pas une solution pour le consommateur, mais d’abord un cout. Les consommateurs le supporte dans la mesure où il est un investissement qui rapporte en lui permettant d’atteindre ses buts et qu’il est suffisamment motiver pour les atteindre.

Le troisième est une idée récurrente : la question des données est finalement assez secondaire pour les consommateurs, sauf s’il ne sont pas impliqués dans la catégorie de produit.

Et s’il fallait conclure sur quelques recommandations, la principale est de rappeler que l’expérience du consommateur n’est pas dans les objets techniques et leur usage, mais dans ce qu’ils recherchent lorsqu’il font leur courses (économie, rituel, divertissement, reconnaissance ou optimisation) . Ceux qui s’équiperont sont ceux qui se sentent concernés par la catégorie de produit, et ils le feront en piquant parmi les applis celles qui leurs permettent d’atteindre leur but. L’ expérience est définie par ces buts et non par la technologie.

MAJ 18 novembre 2015 : Joanna Stroz a remporté le Trophée des Etudes dans la catégorie du Meilleur mémoire de M2. On peut le lire en intégralité ici.