Les Kpis du Marketing – du cockpit au fétiche.

L’invitation de l’Amarc à partager mes réflexions le 21 juin sur la question des indicateurs clés de performance – ces KPIs obsédants, et l’occasion de retrouver un vieux sujet partagé avec un vieux camarade dont la comptabilité est la spécialité, celui du contrôle organisationnel. Et c’est un sujet d’actualité, non seulement par la colonisation du monde par les kpis, les systèmes de notation, de ranking, de scoring, mais aussi parce que dans l’univers des plateformes le contrôle est exercé par le client.  La vidéo est éditée par la pétillante équipe de l’Amarc et je découvre qu’ils (m’) ont fabriqué un très joli mini Mooc.

 

 

Analyse conjointe avec r

VinblancL’analyse conjointe est sans doute la méthode la plus spécifique du marketing, même s’il semble qu’elle soit un peu négligée de nos jours alors même que l’environnement digital en permettrait un renouveau. Dans cette note nous nous contenterons de présenter pas à pas, son application via le package Conjoint sur r , développé par Andrzej Bak et Tomasz Bartlomowicz.

Pour plus de détails sur la méthode elle-même on jettera un coup d’oeil en fin de post à une bien vieille note écrite avec Jean-claude Liquet, imparfaite mais utile au moins pour les étudiants. Pour un état de l’art récent on ira voir ce texte , pour des applications professionnelles on ira voir le site de Sawtooth.

L’exemple que nous utilisons est un jeu de donnée crée par une des étudiante du Master MOI, dans le but de tester le rôle de certain signes de qualité dans le choix d’un vin. La première étape de l’analyse conjointe consiste à choisir des attributs que l’on pense déterminant et à définir leur modalités. La seconde étape vise à générer des concepts à partir de ces attributs. Comme le nombre de combinaison devient rapidement important, on utilise généralement des méthodes de plan d’expérience incomplets ( toutes les combinaisons ne sont pas testées, et orthogonaux ( on s’arrange pour que les modalités apparaissent de manière équilibrée et non corrélées entres elle).

La procédure ici est très simple : on appele le package “conjoint”, pis on créé le fichier vin qui va contenir les différents concept en définition les attributs ( variables : type, pays…) et leurs modalités (“doux, “demi-sec”,…). Le plan factoriel est défini par la commande caFactorialDesign avec ici deux options : le choix de l’option ” fractional”, et une limite dans le nombre de concept que l’on a fixé à 13.


library (conjoint)
library (Rcmdr)
Vin<-expand.grid(
Type<-c(“Doux”,”demi-sec”,”sec”),
Pays<-c(“Bourgogne”,”Bordeaux”,”Italie-Nord”,”Afrique du Sud”),
Marque<-c(“Millessima”,”1jour1vin”,”Nicolas”),
Prix<-c(“7€”,”12€”,”20€”),
Label<-c(“Médaille d’or “,”NC”),
Environ<-c(“Bio”,”NC”),
Annee<-c(“2014”, “2011”))
design_vin<-caFactorialDesign(data=Vin,type=”fractional”,cards=13)

Le résultat est obtenu avec

print(design_vin)

le voici :

        Var1           Var2       Var3 Var4           Var5 Var6 Var7
49      Doux      Bourgogne  1jour1vin  12€ Médaille d'or   Bio 2014
81       sec    Italie-Nord Millessima  20€ Médaille d'or   Bio 2014
95  demi-sec Afrique du Sud  1jour1vin  20€ Médaille d'or   Bio 2014
176 demi-sec    Italie-Nord    Nicolas  12€             NC  Bio 2014
208     Doux       Bordeaux    Nicolas  20€             NC  Bio 2014
221 demi-sec       Bordeaux Millessima   7€ Médaille d'or    NC 2014
360      sec Afrique du Sud    Nicolas   7€             NC   NC 2014
458 demi-sec      Bourgogne    Nicolas   7€ Médaille d'or   Bio 2011
558      sec       Bordeaux  1jour1vin   7€             NC  Bio 2011
586     Doux Afrique du Sud Millessima  12€             NC  Bio 2011
667     Doux    Italie-Nord  1jour1vin   7€ Médaille d'or    NC 2011
714      sec       Bordeaux    Nicolas  12€ Médaille d'or    NC 2011
842 demi-sec      Bourgogne  1jour1vin  20€             NC   NC 2011

Parmi les 3x4x2x3x2x2=288 concept possibles seuls 13 ont été choisis. Est-ce trop peu? Un moyen de tester celà est de calculer les corrélations entre les modalités. C’est une fonction offerte par le package :

design_vin2<-caEncodedDesign(design_vin)
print(cor(design_vin2))

En voici le résultat, et c’est entre la var 7 et 4 qu’on encourage la corrélation la plus forte. Dans la pratique on fait différent essais pour trouver le meilleur compromis. Dans notre exemple on se satisfera de cette solution.

Var1 Var2 Var3 Var4 Var5 Var6
Var1 1.0000000 0.15304713 0.10586263 -0.10586263 0.17593289 -0.17593289
Var2 0.1530471 1.00000000 -0.11216750 0.11216750 0.17605477 0.04142465

Var3 0.1058626 -0.11216750 1.00000000 0.23275862 0.08596024 0.08596024
Var4 -0.1058626 0.11216750 0.23275862 1.00000000 -0.08596024 -0.08596024
Var5 0.1759329 0.17605477 0.08596024 -0.08596024 1.00000000 0.07142857
Var6 -0.1759329 0.04142465 0.08596024 -0.08596024 0.07142857 1.00000000
Var7 0.1759329 -0.04142465 -0.08596024 -0.28653413 0.23809524 -0.07142857

La troisième étape est celle de la collecte d’information. On essaiera de donner plus de réalisme en proposant les concepts sous formes d’image (celle qui illustre le post en est un exemple) ou encore mieux sous la forme de maquette. Quant au nombre de sujet, une remarque importante est qu’il n’a pas de limite inférieure pour la raison simple que le modèle est calculé individu par individu : ce que l’on cherche c’est naturellement à prédire le classement des concepts à partir des profils, et cela individu par individu. Naturellement les conditions d’échantillonnage habituelles interviennent si l’on veut généraliser à une population, si l’on veut segmenter ou faire des comparaisons entre des groupes d’individus particulier. Dans notre exemple on se contente de 36 individus, c’est largement insuffisant pour généraliser, mais bien assez pour les vertus de l’exemple.

Le fichier de données recueillis par notre étudiante apparait sous la forme suivante : C1, C2,… représente le premier puis le second choix etc. Nous allons devoir le remettre en ordre pour qu’il puisse être traité.

ID SEXE C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13
1 1 homme 52 458 584 105 627 654 311 775 514 120 424 253 828
2 2 femme 105 775 52 458 828 654 253 311 627 120 584 514 424
3 3 homme 52 514 105 627 253 654 120 311 458 584 424 828 775
4 4 homme 52 584 105 627 775 654 120 311 458 514 424 253 828
….

L’ordre requis par le package est un fichier “long” qui énumère les individus, les concepts dans leur ordre de production, et le classement de ces concepts. Une petite manipulation doit être donc excecutée avec une fonction très utile de r : la fonction ” reshape” :

MemoireVin_rank3 <- reshape(MemoireVin_rank2, varying=list(c(“C1″,”C2″,”C3″,”C4″,”C5″,”C6″,”C7″
,”C8″,”C9″,”C10″,”C11″,”C12″,”C13”)), idvar = “ID”, v.names=”concept”,direction = “long”)

 

On trie le fichier ensuite avec

MemoireVin_rank4<-MemoireVin_rank3[order(MemoireVin_rank3[,4],decreasing=F),]
MemoireVin_rank4<-MemoireVin_rank4[order(MemoireVin_rank4[,1],decreasing=F),]

 

et l’on crée un fichier de label pour l’esthétique:

l’analyse conjointe proprement dite peut être exécutée avec la simple commande :

Conjoint(MemoireVin_rank4$concept,design_vin2,label)

 

qui produit les résultats principaux suivants: c’est à dire les utilités partielles ( path-worth) et le poids des attributs (on omet le modèle de régression et les tests associés qui sont redondants)

Residual standard error: 3,448 on 442 degrees of freedom
Multiple R-squared: 0,175, Adjusted R-squared: 0,1526
F-statistic: 7,811 on 12 and 442 DF, p-value: 2,991e-13
[1] “Part worths (utilities) of levels (model parameters for whole sample):”
levnms utls
1 intercept 7,3099
2 Doux 0,1999
3 demi-sec 0,8055
4 sec -1,0054
5 Bourgogne -0,9406
6 Bordeaux 0,5748
7 Italie-No -0,1933
8 AfriqueSud 0,5591
9 Millessima 0,5693
10 1jour1vin-0,9083
11 Nicolas 0,3389
12 7€ -0,901
13 12€ -0,6254
14 20€ 1,5264
15 Médaillor-0,0999
16 NC 0,0999
17 Bio -0,7956
18 NC 0,7956
19 2014 -0,8828
20 2011 0,8828
[1] “Average importance of factors (attributes):”
[1] 17,58 18,68 14,39 20,87 8,40 10,53 9,54

 

On notera d’emblée u r2 proche de 17,5%, ce qui signifie que l’on reconstitue imparfaitement les préférences mais de manière significative : le test d’analyse de variance l’est à moins de 1 pour 1000. D’autre facteurs interviennent mais n’ont pas été pris en compte : forme de la bouteille, étiquette, Chateau etc. Les path-worth représente le gain en terme de rang qui est obtenus : les valeurs négative signifie simplement qu’on améliore le classement avec la présence de la modalité. Par conséquent le profil préféré est un vin sec, de type bourgogne, vendu par 1j1vin à 7 euros, bio et ayant reçu  une médaille, et plutôt jeune. On s’aperçoit que le prix pèse vous 21% suivi par l’origine et le type de vin, la médaille et le millésime comptant pour peu.

La commande produit aussi de manière automatique les graphiques de profil d’utilité correspondants :

Poursuivons la procédure. Ces résultats généraux sont une chose, mais on souhaite avoir des résultats plus individualisés. Les commandes suivantes nous permettent de générer un fichier des utilités individuelles :

upartial<-caPartUtilities(MemoireVin_rank4$concept,design_vin2,label)
newData <- as.data.frame(upartial)
newData
names(newData) <- make.names(names(newData))

L’analyse conjointe à ce stade est achevée et nous pouvons en exploiter les résultats. A titre d’exemple on peut s’interroger sur le poids des attributs dont on se dit qu’ils peuvent varier selon le degré d’expertise des consommateurs. Pour vérifier cette proposition, il va falloir d’abord transformer les utilités des modalités en importance des attributs. La formule générale est simplement Wk = abs(Min(ki)-Max(ki)/ somme(abs(Min(ki)-Max(ki)), k représente l’attribut, i les modalités des attributs. Le code est simple même si un peu lourd.

#calcul des importances

MemoireVin_rank$x_type<-abs(MemoireVin_rank$Doux-MemoireVin_rank$sec)
MemoireVin_rank$x_Origine<-abs(MemoireVin_rank$Bourgogne-MemoireVin_rank$Afrique.du.Sud)
MemoireVin_rank$x_Enseigne<-abs(MemoireVin_rank$Millessima-MemoireVin_rank$Nicolas)
MemoireVin_rank$x_Prix<-abs(MemoireVin_rank$X7.-MemoireVin_rank$X20.)
MemoireVin_rank$x_Medaille<-abs(MemoireVin_rank$Médaille.d.or-MemoireVin_rank$NC)
MemoireVin_rank$x_Bio<-abs(MemoireVin_rank$Bio-MemoireVin_rank$NC)
MemoireVin_rank$x_Millessime<-abs(MemoireVin_rank$X2014-MemoireVin_rank$X2011)
MemoireVin_rank$x=MemoireVin_rank$x_type+MemoireVin_rank$x_Origine+MemoireVin_rank$x_Enseigne+MemoireVin_rank$x_Prix+MemoireVin_rank$x_Medaille+MemoireVin_rank$x_Bio+MemoireVin_rank$x_MillessimeMemoireVin_rank$x_type<-MemoireVin_rank$x_type/MemoireVin_rank$x
MemoireVin_rank$x_Origine<-MemoireVin_rank$x_Origine/MemoireVin_rank$x
MemoireVin_rank$x_Enseigne<-MemoireVin_rank$x_Enseigne/MemoireVin_rank$x
MemoireVin_rank$x_Prix<-MemoireVin_rank$x_Prix/MemoireVin_rank$x
MemoireVin_rank$x_Medaille<-MemoireVin_rank$x_Medaille/MemoireVin_rank$x
MemoireVin_rank$x_Bio<-MemoireVin_rank$x_Bio/MemoireVin_rank$x
MemoireVin_rank$x_Millessime<-MemoireVin_rank$x_Millessime/MemoireVin_rank$x

En voici les résultats réalisé avec la commande plotMeans du package Rcmdr (la fonction x11() permet d’ajouter les graphiques), on s’apercevra que ceux qui se sentent experts donne un poids plus important au caractère bio et au prix, tandis que les novices accordent plus d’attention à la médaille, au millésime et à l’origine, alors que ceux qui se sentent un degré modéré d’expertise favorisent l’enseigne et le type de vin. Sans aller plus loin dans l’analyse on obtient un résultat général clair : on n’utilise pas les mêmes critères selon le niveau d’expertise, ce qui est assez logique. On laissera au lecteur le soin d’aller plus loin.


x11()
plotMeans(MemoireVin_rank$x_type, MemoireVin_rank$EXPERTISE_PERCUE, error.bars=”none”,xlab=”Connaissance”,main=”Type”,cex.lab=1)
x11()
plotMeans(MemoireVin_rank$x_Origine, MemoireVin_rank$EXPERTISE_PERCUE, error.bars=”none”,xlab=”Connaissance “,main=”Origine”,cex.lab=1)
x(11)
plotMeans(MemoireVin_rank$x_Enseigne, MemoireVin_rank$EXPERTISE_PERCUE, error.bars=”none”,xlab=”Connaissances “,main=”ENseigneG”,cex.lab=1)
x11()
plotMeans(MemoireVin_rank$x_Medaille, MemoireVin_rank$EXPERTISE_PERCUE, error.bars=”none”,xlab=”Connaissances “,main=”Medaille”,cex.lab=1)
x11()
plotMeans(MemoireVin_rank$x_Bio, MemoireVin_rank$EXPERTISE_PERCUE, error.bars=”none”,xlab=”Connaissances “,main=”BIO”,cex.lab=1)
x11()
plotMeans(MemoireVin_rank$x_Millessime, MemoireVin_rank$EXPERTISE_PERCUE, error.bars=”none”,xlab=”Connaissances “,main=”Millessime”,cex.lab=1)
x11()
plotMeans(MemoireVin_rank$x_Prix, MemoireVin_rank$EXPERTISE_PERCUE, error.bars=”none”,xlab=”Connaissances “,main=”Prix”,cex.lab=1)

Généralement on cherchera à segmenter notamment pour identifier les groupes de consommateurs qui partagent les mêmes attentes. Ici on emploie les fonctions d’analyse hierarchique ( méthode de ward) fourni par l’interface graphique Rcmdr qui a déja été appelée, en choisissant la solution à trois groupes et en l’illustrant par le biplot. le code correspondant est le suivant ( mais en fait on s’est contenté d’utiliser le menu)


HClust.1 <- hclust(dist(model.matrix(~-1 + x_Bio+x_Enseigne+x_Medaille+x_Millessime+x_Origine+x_Prix+x_type, MemoireVin_rank)) , method= "ward") plot(HClust.1, main= "Cluster Dendrogram for Solution HClust.1", xlab= "Observation Number in Data Set MemoireVin_rank", sub="Method=ward; Distance=euclidian") summary(as.factor(cutree(HClust.1, k = 3))) # Cluster Sizes by(model.matrix(~-1 + x_Bio + x_Enseigne + x_Medaille + x_Millessime + x_Origine + x_Prix + x_type, MemoireVin_rank), as.factor(cutree(HClust.1, k = 3)), colMeans) # Cluster Centroids biplot(princomp(model.matrix(~-1 + x_Bio + x_Enseigne + x_Medaille + x_Millessime + x_Origine + x_Prix + x_type, MemoireVin_rank)), xlabs = as.character(cutree(HClust.1, k = 3)))

les profils apparaissent dans le tableau : le groupe 1 donne plus de poids à l’origine et au type, le groupe 2 à l’enseigne et au caractère bio, le groupe 3 au prix et au millesime. O peux penser que le premier favorise les goûts de l’individu, le second le style d’achat, et le troisième un certain rapport qualité/prix. On retrouve ainsi ce grand classique des avantages recherchés!


INDICES: 1
x_Bio x_Enseigne x_Medaille x_Millessime x_Origine x_Prix
0.07147493 0.10822056 0.09169431 0.11697915 0.22503436 0.19621573
x_type
0.19038097
————————————————————
INDICES: 2
x_Bio x_Enseigne x_Medaille x_Millessime x_Origine x_Prix
0.17373411 0.19015292 0.15400115 0.05344901 0.07003827 0.16861833
x_type
0.19000620
————————————————————
INDICES: 3
x_Bio x_Enseigne x_Medaille x_Millessime x_Origine x_Prix
0.07657425 0.13635953 0.12456815 0.29134291 0.04337232 0.25255357
x_type
0.07522927

 

 

 

Satisfaction : une étude barométrique

The refined beauty

Une situation courante dans les entreprises de services et de distribution est de mesurer la satisfaction ou d’autres indicateurs proches, pour des unités géographiques distinctes et identifiables : des points de ventes, des bureaux d’orientation, des bornes ou automates, une multitude de localisation. Quand le réseau comprend des centaines d’unités, certaines variétés, certaines d’analyse sont utiles.

C’est l’objet de cette étude, une première plongée dans une jolie base. 300 000 jugements de satisfaction.

Ce n’est pas tout à fait du big data mais cela donne une idée des méthodes de résolution qui doivent être mises en œuvre quand les données sont abondantes. Elles ne sont pas forcément complexes, elles tirent l’avantage d’une répétition. Pour chaque unité nous pouvons ajuster un modèle, une variation. Et comparer.

Dans notre cas il s’agit de données relatives à une mesure de satisfaction qui concerne 166 points de ventes d’une chaine de distribution dans un pays européen. Et juste une première analyse pour tester des données. Pour chacun des points de vente les tailles d’échantillons sont de l’ordre de 1000. la médiane est vers 900. Nous disposons sur cette base de données de près de 170 000 observations, pour 166 unités d’analyse – des points de ventes. Nous pouvons donc pour chacune d’elles estimer un modèle de satisfaction dont la structure est :

      Sij=aij+a1jOffre(ij)+a2jMerch(ij)+a3jCommodité(ij)+a4j*Personnel(ij)+eij

     ( i indice l’individu et j le point de vente)

Les paramètres correspondent ici à l’accroissement de satisfaction globale assurée par le fait d’être noté parmi les 15% meilleurs. Si le coefficient obtenu est de 0,5, cela signifie qu’être noté parmi les 15% des meilleurs accroit la satisfaction globale de 0,5 point. Voilà qui peut servir de point d’ancrage pour évaluer les valeurs de l’étude.

L’idée est dans l’esprit de la méta-analyse de prendre partie de la possibilité de faire une étude des études et ainsi de mieux comprendre et d’ajuster les modèles. Un exemple simple est donnée dans l’illustration suivante où un modèle de satisfaction multi-attributs est estimé à chaque point de vente. On peut ainsi étudier directement les distribution des paramètres, et d’essayer de comprendre en fonction de quoi elles varient.

Dans notre cas il s’agit de 4 facteurs principaux : l’assortiment des produit, la qualité du merchandising, la facilité de circulation dans le point de vente et la qualité des interventions du personnel. On observe que ces effets varient du simple au double. Dans le cas du merchandising qui a la valeur moyenne la élevée pour sa contribution (de l’ordre de 0.67), la plage de valeur va de près de 0.5 jusqu’à presque 1. L’influence de cette variable change fortement d’un point à l’autre. Il reste à savoir pourquoi.

Ces sensibilités ne sont pas tout à fait indépendantes comme en témoigne le tableau des corrélations suivant. Il y a un lien significatif entre l’offre et le merchandising, une autre entre la qualité du personnel et la facilitation de circulation. Dans certain cas c’est la manière dont l’offre est présentée qui compte, dans d’autres c’est l’orientation dans le magasin qui est déterminante. Les corrélations partielles confortent la force de ces liens.

On sera étonné que seul la sensibilité du merchandising varie négativement avec la taille des magasins, plus ils comprennent de personnel et moins la mise en scène est importante elle reste l’apanage des petits formats.C’est ici qu’il faut mettre en scène les produits et motiver les gérants.

Ces coefficients de sensibilité semblent cependant peu varier avec des variables telles que la taille du magasin, la localisation, ou même la région. En voici un résumé pour la taille des points de ventes.

A cette échelle peu de différences sont significatives, mais des patterns apparaissent. On comprend mieux cet effet dans la figure suivante ou les niveaux des facteurs varient avec la taille : la mise en place est d’autant plus importante que les magasins sont petits.

A l’inverse même si ce n’est pas tout à fait décisif, dans les grandes unités le personnel a un poids plus fort sur la formation de la satisfaction. Mais ce n’est qu’un facteur.

Donnons aussi les différences selon la localisation : en centre ville ou à l’extérieur. Très clairement le merchandising est plus important dans les unités hors centre. Dans cet environnement c’est sur la mise en place des produit qu’on peut obtenir une meilleure évaluation. Les données sont cohérentes. A contrario dans les zones urbaines, où les unités sont grandes c’est le personnel qui est la clé. On le comprend bien, le confort des visites devient important quand l’offre ne peut plus être bien évaluée, l’abondance demande de l’aide et des efforts.

Un des enseignements de cette étude est que les paramètres de sensibilité des attributs de la satisfaction varient fortement selon les points de ventes. Ces variations sont peu expliquées par la taille, la région, ou l’effectif. D’autres facteurs déterminent sans doute ces variations, il reste à les découvrir. L’essentiel d’en prendre compte : une politique bonne dans un magasin n’est peut-être pas la meilleure dans un autre.

Mais la méthode simple rend bien compte de cet enjeu : même si nous pouvons user de modèles sophistiqués et subtils comme les modèles multiniveaux (1), c’est l’ingéniosité qui doit avoir le premier mot, un ingéniosité qui rende compte que les modèles varient dans leurs paramètres, Rares sont les travaux de cet ordre, une exception est le travail de Mittal et kamakura(2)

Il reste à mettre en œuvre les procédures et les cadres théoriques qui en exploiteront la moelle : ces variations d’un lieu à l’autre. Cette idée que les modèles n’ont de sens que dans la variation de leurs paramètres. Et que c’est celà qui permet une gestion fine des canaux, de comparer les unité et d’évaluer au mieux l’allocation des ressources.

(1) Ray J.-J., Ray D., 2008. Modéliser les phénomènes multiniveaux en marketing, Recherche et Applications en Marketing, Vol 23, n°1: 55-80.

(2) Mittal V, Kamakura W, Govind R. Geographic Patterns in Customer Service and Satisfaction: An Empirical Investigation. Journal Of Marketing July 2004;68(3):48-62.

PS : données modélisées par A Benabi,  et rassemblées par Init .

La centimètrique de l’engagement social

Not friend on ur facebook
L’idée d’engagement au début de cette décennie s’impose à la fois comme un objectif prioritaire et une mesure de performance. Cette idée trouve une matière naturelle dans l’espace des réseaux sociaux. On peut l’exprimer simplement comme l’idée qu’il ne suffit pas d’attirer l’attention, ni même d’entretenir une certaine affection, mais qu’il est désormais nécessaire de transformer les meilleurs supporters en militant. Le client engagé est celui qui au-delà d’acheter se met à vendre.
Cela se comprend dans la mesure où il ne s’agit plus seulement de dépenser plus que les autres pour se faire entendre, mais d’enrôler plus de supporters pour faire vivre plus largement sa voix que les autres. La cause est entendue : dans un espace dont le coût ne fait que s’accroître autant profiter de relais que l’on ne paye pas encore. C’est encore plus une question de crédibilité. Pour mesurer cet effets, de multiples indicateurs sont proposés depuis quelques années. On trouvera ici les principales mesures
Des chiffres commencent à émerger et ils se rapportent essentiellement à corrélation présumée entre la taille de l’audience le taux d’engagement (rapport des acteurs sur le nombre de membres. Social bakerssuggère une relation inverse : les pages de fans les plus populeuses enregistreraient le taux d’engagement le plus faible. C’est un fait qu’on comprend aisément : à mesure que l’audience croît la proportion  de consommateurs actifs et interactifs croit moins vite. Mais c’est un résultat qui aussi va contre une des loi les plus anciennes de la publicité : celle du mere exposure effect :  la répétion des messages conduit à leur plus grande persuasion. On pourrait s’attendre à ce que les marques qui conquièrent une audience large puissent aussi conquérir une audience plus engagée. Le phénomène du double jeopardy défend ce point de vue. A moins que le marché ne soit pas encore assez mur.
On notera au passage le caractère centimètrique de l’engagement. Les pages de fan ne sont pas si sociales. L’audience active ne représente qu’un millième de l’audience acquise. C’est plutôt millimètrique! Mais n’en soyons pas étonné, c’est un des effets de la loi de la participation (1-9-90).
En regardant de plus près les choses il s’avère cependant de la corrélation entre l’audience et l’engagement est faible et même nulle en témoigne cette absence de corrélation qui concerne les marques les plus actives dans les réseaux sociaux. Cette absence de corrélation peut signifier des choses très différentes :
  • que des marques font un effort exagéré pour recruter des fans et donc emportent des consommateurs peu concernés
  • Qu’à l’opposé certaines ne faisant aucun effort concentrent dans leur pages des consommateurs très impliqués
  • Que d’autres font des efforts de recrutement modérés et emmenant dans leurs troupes une proportion raisonnable de consommateurs réellement engagés bénéficient de leurs effets de conviction.
Il en résulte que le taux d’engagement en-soi ne signifie pas grand chose et qu’il faut trouver d’autres méthodes pour en déterminer l’efficacité. Sans doute les approches DEA permettraient de mieux cerner l’efficacité relative des campagnes : elle s’appuie moins sur des moyennes et des régression que sur l’enveloppe : cette frontière que dessinent les points extrême. 
La réflexion sur l’engagement ne peut s’en tenir uniquement au point de vue des marques et de leur canal d’émission. Il faut aussi considérer le point de vue des consommateurs. Une étude de Mickael Muller (2012) donne de ce point de vue un éclairage particulièrement intéressant. Une première idée est que l’engagement est un trait de personnalité. Ceux qui participent et s’engagent le ferait alors systématiquement, quelque soit les canaux. Il s’avère que la corrélation entre le degré d’engagement dans un canal n’est pas corrélé au degré d’engagement dans plusieurs canaux. Une seconde idée est que l’engagement est le fruit d’un apprentissage , ce qui correspond à la théorie des étapes de l’engagement. Malheureusement l’étude montre que le taux d’engagement ne s’accroit pas dans le temps.C’est la théorie de l’engagement qui s’avère la plus probable : les contributions procède d’un engagement, au sens psychologique, envers la communauté, d’une prédisposition.
C’est donc vers une théorie largement contingente qu’il faut s’orienter : elle doit prendre en compte la nature des supports et le coût de l’engagement qu’ils induisent, l’objet de l’engagement et la motivation qu’ils suscitent, les effets de mimétisme – on contribue d’autant plus facilement que d’autres l’on fait, et naturellement des prédispositions et des situations. 
Pour en revenir au très discuté taux d’engagement, ce qu’il mesure en fait est profondément ambigu : faible c’est qu’il est plus sensible à l’engagement des lurkers (veilleurs), quand il est élevé à celui des contributeurs. L’ambiguïté est que ces deux comportements reflète en fait deux formes distinctes mais égales d’engagement. La seconde plus aisément mesurable dominant les débats. La véritable question est donc de savoir qui parmi ceux qui ont liker une fois, ou se sont abonnés à un fil twitter, maintiennent au cours du temps une attention aux messages de l’émetteur, leur silence ne doit pas forcement être confondu avec un désintérêt.
PS : On en discutera de manière plus approfondie au salon stratégie client le 5 avril 2012 avec Synthesio, Acticall et Dimelo.

L’invariance des baromètres de satisfaction

Malédiction de la satisfaction
Par Amine Benabi – Doctorant CEROS et Cifre Init . 
 
La question de la satisfaction n’est pas qu’une question de concept. C’est aussi un problème de mesure, d’une mesure qui se fait le plus souvent sous la forme d’un baromètre destiné à en identifier les variations. Ces enquêtes s’inscrivent comme des éléments de contrôle des stratégies sont menée au moins annuellement, souvent trimestriellement et parfois de manière continue.

La satisfaction client qui est souvent considérée comme la composante la plus importante des politique relationnelle, et qui conduit à la fidélité est définie comme une résultante de la comparaison entre les attentes et l’évaluation de la performance perçue du produit ou du service (Oliver, 1997). Ce modèle connu sous le nom de la Disconfirmation des attentes, est à la base du paradigme de la satisfaction, et explique le processus de sa réalisation.

Cependant les mesures effectuées sont plus souvent liées à une évaluation globale qui ne permet pas toujours de discerner l’accroissement des attentes et celle de la qualité perçue, ce qui permet d’expliquer un phénomène courant : les baromètres sont plats, et au cours du temps peu de variations sont observées. Le phénomène peut être accru quand les résultats sont agrégée au niveau de la marque. Dans un examen quotidien de l’efficacité de la politique centrée clients à travers des enquêtes de satisfaction ; les sondeurs utilisent différents indicateurs et parmi les plus populaires : le calcul de taux (pourcentages), de moyennes ou encore des scores. Ces outils sont considérés comme des indicateurs fiables et représentatifs du phénomène étudié. Les différentes firmes procèdent ainsi à des contrôles permanents visant à établir l’évolution des indicateurs et ainsi corriger si nécessaire leurs actions (qui vise essentiellement une amélioration du produit ou service), pour mieux satisfaire leurs clients et donc de les fidéliser.

Or ces indicateurs calculés d’une vague à une autre souvent bougent très peu. Un gain d’un point dans une moyenne, ou encore dans un taux de satisfaits est vraiment très rare.

Cette observation faite au quotidien par les professionnels, nous aamené à se questionner sur le pourquoi de cette constance ou invariance. Les facteurs qui peuvent expliquer cette stabilité reposent sur deux hypothèses, qui sont :

H1 : les attentes des clients sont continuellement réévaluées, au même titre que l’amélioration du produit ou du service
H2 : Les clients recrutés (satisfaits) remplacent les partants (insatisfait)
L’augmentation de la qualité ou du niveau de service (donc de satisfaction) conduit à une augmentation des attentes et à mesure que les entreprises répondent aux attentes des clients pour mieux les satisfaire, elles encouragent aussi la réévaluation des attentes se condamnant à de nouvelles innovations et amélioration pour simplement maintenir le niveau de satisfaction. Une sorte de tapis roulant que l’on qualifierait volontiers de malédiction de la satisfaction. Cela peut créé un état d’équilibre permanent Les entreprises fidélisent mais recrutent aussi des nouveaux clients car les départs sont inéluctables. On peut supposer que les clients partants sont ceux qui ont la plus basse satisfaction et des attentes assouvies face à des attentes élevée. En revanche les nouveaux clients n’ont pas un niveau prononcé d’attentes et peuvent être satisfait facilement et sans trop d’effort. 

A partir de cette double hypothèse configurations deviennent possibles :

1-Une progression  de la satisfaction par rapport à la vague précédente : c’est le cas ou les nouveaux arrivants sont plus nombreux que les partants et en même temps, les restants sont constants au niveau de la satisfaction 
2-Une diminution  de la satisfaction par rapport à la vague précédente : c’est le cas où les recrutés sont moins nombreux que les partants et que les restants sont en phase de devenir des futures partant (niveau de satisfaction baisse). 

Les deux hypothèses émises précédemment, sont centrées sur l’augmentation des attentes clients vue globalement sur la population des consommateurs. Si cette augmentation est comblée par l’évolution du produit, il y a équilibre (H1). Si ce n’est pas le cas un déséquilibre négatif peut être corrigé par le recrutement des nouveaux clients (H2). Si le déséquilibre est positif, les améliorations vont au-delà des nouvelles attentes, une stabilité des indicateurs marquerait simplement un équilibre de l’attrition et de l’acquisition. On voit ici que l’invariance des mesures de satisfaction est conditionnée à deux cas qui se complètent et qui sont maintenus comme tels par les entreprises. La stabilité des indicateurs de satisfaction masque en fait une dynamique plus forte. L’équilibre se situe dans le rapport entre les attentes et la performance perçue par les clients, et entre le renouvellement de ces derniers. 

Reste à tester cette invariance. Un calcul statistique est disponible pour réaliser ce test : l’indice de distorsion  (Térouanne,1995). En voici une illustration avec un baromètre de satisfaction d’un chaine de distribution portant sur douze trimestres et donc 12 vagues. Le cumul de données pour l’entreprise en question, dépasse les 126 000 individus (10 000 par vague). Cette grande dimension de l’information donnera une certaine sécurité aux résultats.Comme l’idée est de prouver la stabilité des mesures d’une vague à une autre, nous comparerons les mesures dans chaque vague pour voir si la stabilité existe. 

Pour celà nous utilisons un indice « distorsion » utilisée pour mesurer l’écart entre la concentration de deux distributions de fréquences. Cette notion de « distorsion » est utilisée pour comparer la distribution des fréquences du critère de satisfaction) d’une vague à une autre.Nous définirons l’indice de distorsion selon (Térouanne, 1995), entre deux distributions de fréquences p, et q, par δ(p,q) qui est compris entre 0 et 1. Si l’indice est égale à 0, nous nous trouvons dans le cas où les distributions des fréquences sont égales p=q, et si il est égale à 1 ça sera le cas où les deux distributions sont totalement différentes. Comme la problématique de notre étude, est de prouver que les distributions d’une vague à une autre, sont identiques, nous prendrons l’indicateur γ(p,q).

Ce qui nous permet de traduire la stabilité de la mesure par un indice qui exprimera la ressemblance entre deux distributions avec une valeur proche de un et proche de zéro dans le cas d’une dissemblance. Les données recueillies dans chaque vague, concernent un item de satisfaction qui est posée aux répondants. Il s’agit de la satisfaction globale concernant le service de l’entreprise en question. Ce critère est mesuré sur une échelle allant de 1 à 10, 1 signifiant une satisfaction très basse et 10 un niveau très élevé. Les réponses au critère sont recueillies, dans chaque vague dont nous disposons de la distribution des fréquences sur laquelle l’indicateur γ(p,q), sera calculé. L’objectif sera de voir comment cet indice évolue d’une vague à une autre. Les valeurs trouvées sont les suivantes :
Les résultats nous montrent que les distributions des fréquences pour le critère de satisfaction, restent stables d’une vague à un autre. La ressemblance est au minimum à 96.8%, ce qui nous renseigne sur le degré de la similitude entre les résultats fournis d’une vague à une autre. La réduction de la similitude au cours des dernières vagues indique un changement d’état qui reste à caractériser.
Dans cette étude, nous avons établi la stabilité des mesures de satisfaction d’une vague à une autre. Cette stabilité n’est pas une stagnation, le double mouvement de la réévaluation des attentes et du renouvellement du portefeuille produit une stabilité des indicateurs de satisfaction qui est le signe que l’entreprise conserve et améliore ses services. Cette stabilité est le résultat direct d’une bonne notoriété et un bon processus de travail de l’entreprise. Car les clients jugent le produit ou le service mais juge aussi l’historique de la relation.

Amine Benabi – Doctorant.

Klout : influencer la mesure de l’influence ?

Clout

Klout s’impose comme l’instrument de mesure de l’influence (1), mais à l’instar de Yann Gourvennec  (Klout mesure-t-il l’influence ou la capacité à influencer Klout ?) nombreux sont ceux qui s’interrogent sur la validité d’un indicateur qui semble varier de manière trop prononcée en fonction de l’activité. Les semaines de vacances ont fait de gros trous dans de nombreux ego.
C’est l’occasion de revenir sur la question générale de la mesure de la performance. Dans le cas de Klout ce qui est mesuré assurément ce sont les conséquences de l’activité : les mentions, les retweet, les partages, les likes, tout ce fratras et cette agitation qui caractérise les réseaux sociaux. Il va de soi que plus on est actif et plus on fait de bruit. 
Les record(wo)men du klout sont ceux qui s’agitent non stop. A moins de 50 twits par jour, ce n’est pas la peine d’espérer figurer dans un top 300 quelconque. De ce point de vue, Yann a raison, Klout mesure la capacité que l’on a à l’influencer. Et même de ce point de vue, il y a des questions qui se posent. Les adresses raccourcies qui signalent un post sont-elle identifiées comme le fait Topsy, et attribuées à son auteur?  La foule des curateurs se repait d’un contenu qu’elle n’a pas créé et gagne les points précieux du klout system. L’influence de Lady Gaga (K=92) sur la musique est-t-elle plus importante  que celle de Timbaland (K=73)?
Mais cela n’explique pas le trou de l’été, l’explication est beaucoup plus simple. Formulons la sous la forme d’une hypothèse : Klout très certainement utilise un modèle de lissage exponentiel et très probablement a donné un poids trop faible au paramètre λ du modèle :
  • Ki'(t) = λKi’(t-1)+(1-λ)A(t)  avec Ki'(t) : l’estimation de l’influence de i à t-1 et Ai(t) l’activité dérivée par i en t – autrement dit l’influence aujourd’hui dépend pour une part de l’activité induite immédiatement observée et de l’influence calculée dans le passé.
Cette formule par récurrence, très simple est largement employée, y compris en marketing. Pour la petite histoire voici un texte de Little de 1965 qui en analyse l’usage pour la promotion des ventes, modèle utilisé d’ailleurs plus tard pour mesurer la fidélité des consommateurs. On s’amusera à redécouvrir qu’il n’y avait besoin ni de traitement de texte, ni d’ordinateur, ni d’internet pour modéliser !!!

Une image valant pour beaucoup plus qu’un mot, voici ce que celà donne pour un twittos dont l’influence grandit de manière linéaire, et qui suspend tout activité pendant quelques périodes (il reprend ensuite au niveau où il s’est arrêté simplement en mobilisant à nouveau le réseau qu’il a accumulé) et pour deux valeurs du  λ. La ligne en jaune colle à l’activité immédiate, celle en rouge atténue les aléas et “résiste” au creux de l’activité.

Le choix de Klout peut cependant se justifier dans la mesure où l’influence dans les réseaux est un processus sans mémoire. On relaye les messages qui ont une valeur dans l’immédiat et il est peu probable que la simple signature de son émetteur en assure la réémission. Autrement dit, une véritable mesure de l’influence devrait faire varier ce paramètre λ pour chacun des agents de manière à prendre en compte l’influence de l’activité passée sur l’activité future de son réseau. En ajustant le modèle individu par individu. Le λi mesurerait alors l’influence véritable.
Pour revenir à la question fondamentale, ce n’est pas l’activité dérivée d’une activité principale qui mesure la performance, mais la relation entre l’effort et le résultat. Une bonne mesure de performance devrait se rapporter au rapport relatif de l’activité sur les réseaux sociaux et de ses conséquences. Il faudrait mesurer une élasticité : le rapport de la variation de l’effort de communication et de la variation des effets de Buzz. Cette mesure distinguerait ceux qui exercent effectivement une influence, de ceux qui jouissent simplement d’effets d’échelles (en général, le nombre de followers résulte plus du following mécanisés que du magnétisme du twittos quand les échelles se comptent en milliers).
Pour conclure, le véritable souci avec Klout n’est pas véritablement dans le choix du modèle, mais plutôt dans ce cancer qui pourrit toutes les agences de notation : le conflit d’intérêt. L’objectif pour Klout est clairement de rassembler la base de données la plus vaste possible, et les mécanismes employées sont moins des mesures objectives de performance qu’un système de motivation et d’incitation. La note n’a pas d’autre rôle que de flatter – ou de vexer – les ego, afin de les encourager à produire plus. Elle joue aussi des instincts les plus bas : la jalousie et l’envie. 
Il n’est pas de saine compétition sans un juge irréprochable. On peut discuter la constitution des indicateurs, leur base d’observation et les choix de modèles, on doit rester attentif à ce que l’on veut mesurer ( qu’est-ce que l’influence?), mais avant tout un bon instrument de mesure doit échapper au conflit d’intérêt. Le doute que l’on peut avoir sur Klout et ses consorts est que le calcul des scores soit indépendant de leurs stratégies de croissance. Dans la mesure où les incitations produites encouragent les twittos à améliorer leur score, ce doute devient majeur. Klout ne mesurerait alors que la capacité à influencer l’influence mesurée, pire il mesure le conformisme des agents, le degré avec lequel les agents se plient à la norme d’influence qu’il a établi.
(1) Ets-il besoin de rappeler que “clout” signifie “influence” en anglais?

PS : il faudrait aussi ajouter pour Klout, que le score n’est pas une métrique comme les autres, il reflète une distribution, le score indique en réalité si l’on appartient au 0,1%, 1% , 10% etc les plus “influents”. Un score de 50 correspond en fait au 10% les plus “influents”.
____
A lire aussi : Du prix à la note – mutations des marchés

Big data – un oeil sur les organisations

Big Data : Water Landscape
Il y a un air de déjà vu dans la promesse du Big Data, un quelque chose d’avant les années 2000 quand ont nous faisais espéré trouvé l’or des bases de données relationnelles, plus encore au tournant du siècle avec des systèmes CRM prêt à faire la différence (stratégique) et toute cette battéries d’outils statistiques rhabillée en pelle et pioches du minage de données. Aujourd’hui Big Blue en tête et les société de conseil comme McKinsey reviennent vendre du petaoctet au motif que les grosses données du net sont pleines de ressources, qu’il faut désormais être prêt a accueillir cette munificence recueillies par les milliards de capteurs : PC, laptops, ATM, call center, front-office, terminaux de paiement, mobiles, GSM, tablettes, compteurs divers et variés, TV, et tout ceux qui vont venir bientôt s’encastrer dans nos objets.
Soyons prudent sur les promesse, l’or est peut-être dans les données, mais le difficile c’est de l’extraire, et le nombre pourrait ne pas être suffisant. Les riches alchimistes ne sont pas ceux qui possédaient des mines de plomb, mais ceux qui ont découvert le procédé de la transmutation. Il est nécessaire de réfléchir mieux à ce pourquoi l’information et sa codification en données apporte de la valeur. On a trop souvent défendu un point de vue fétichiste qui attribue à la donnée un pouvoir limitée au placebo. 3 points.
Premier argument : l’avantage de la quantité. Il n’est pas sur du tout que les bases comportementales ont amélioré fortement la connaissance que nous avions des clients. Pour le praticien de la recherche et des études, l’exploitation de la quantité montre que le rendement du volume d’information est rapidement décroissant. S’il faut explorer une consommation, quelques petites dizaines d’interview permettent de se rendre rapidement compte des points clés et d’une grande partie du détail. Les interviews supplémentaire apporteront peu, voire rien. Le corpus obtenu d’un million de signe suffit.
Dans les enquêtes plus codifiées, qui visent à une mesure précision de la fréquence d’un caractère ou du degré d’un opinion, les traits généraux sont saisis à partir de plusieurs centaines d’observation, les milliers permettent de comparer surement des sous-populations, et à l’ordre grandeur de 10000, la précision est bien plus grandes que les erreurs de mesure. La théorie de l’échantillonnage contredit sérieusement les prétentions du big data : il n’y a pas besoin d’un volume très grand d’information pour saisir toute la connaissance, il faut un échantillon bien choisi, représentant correctement la population étudiée. De ce point de vue le big data aussi vaste soit -il, à moins d’être exhaustif, est une source de biais : les information collectées ne couvrent qu’un partie de l’univers et son donc susceptible à des biais.
Ajoutons que sans modèle, les mesures ont peu de chance de devenir connaissance. L’essentiel dans les données ce sont les grilles d’analyse et les modèles issus du raisonnement théorique qui permettent de transformer la donnée en connaissance. Juste un exemple, l’analyse des données de réseau produit aujourd’hui de très beaux graphes, dont les imprimantes modernes peuvent dessiner les plus fines relations. C’est très beau et ça ne nous apprend rien. En revanche disposer d’une théorie et d’un modèle de la structure des réseaux ( par ex : Attachement préférentiel, free scale distribution model) permet d’en calculer des propriétés globales et une partie du comportement. la valeur n’est pas dans les données mais dans le modèle.
Un autre argument justifie l’approche Big data : L’avantage de hétérogénéité. S’il n’y a pas de différence épistémologique entre petites et grandes données. Il y en a une très pratique : les êtres humains sont très différents, et varient dans leurs comportements. Il n’y pas pas une loi d’ensemble, mais des variations fortes. Obtenir des données nombreuses apporte l’avantage de pouvoir dans l’instant de l’action projeter les valeurs des paramètres calculés par les modèles. La valeur de l’information n’est donc pas dans la connaissance mais dans l’exploitation de cette connaissance. 
Et c’est bien là la promesse du big data : l’automatisation de la décision dans des contextes très spécifiques. Là, on comprend mieux la source de cette valeur. Même si on ne dispose que d’un modèle frustre, son adaptation par un seul paramètre (par exemple une élasticité prix qu’on peut individualisée, et qui permet donc d’optimiser individuellement le prix pour tirer tout l’avantage d’une discrimination presque optimale) permet des gains dont l’espérance est sans doute faible unité par unité, mais dont l’accumulation peut sans doute justifier les vastes investissement du Big Data à venir.
Cette automatisation de la décision suppose qu’au-dessus de la couche des capteurs et des dispositifs de stockage et d’échange de l’information, de celle des modèles et des stratégies, se développe une plateforme décisionnelle : une capacité de production de règle de décision, des moteurs d’inférence, des simulateurs. L’exigence c’est le temps réel et l’ubiquité. Pouvoir en quelque seconde comparer les informations contextuelles aux banques de connaissance et de règles pour délivrer une réponse.
Cet avantage de hétérogénéité ne se limite pas à la décision. Nous vivons dans un temps et un espace physique, chacun est soumis à un champs local puissant. Le Big Data permet de produire une information contextualisée de manière continue. Des zones géographique fine et des fenêtre de temps courtes. Nous sommes dans l’échelle du mètre et de la seconde. On imagine la production de tableaux de bord généralisés. Voir dans une banque agence par agence et minute par minute les variation de l’activité, observer les ventes en continu dans le supermarché et détecter les engouement en quelques heures. C’est la possibilité de projeter en temps réel l’information locale aux acteurs locaux pour qu’il prenne de meilleures décisions, aiguise leur connaissance du terrain qui devient la source de valeur.
Le Big Data assurément va remettre en question les organisations. Et proposons une hypothèses : si les système CRM ont centralisé la stratégie et son application, allégeant la charge du réseau physique pour la déplacer sur des plateformes centrales, le Big Data ne sera un succès que s’il s’accompagne d’une décentralisation de la décision et au moins de repenser l’organisation.