Big data – un oeil sur les organisations

Big Data : Water Landscape
Il y a un air de déjà vu dans la promesse du Big Data, un quelque chose d’avant les années 2000 quand ont nous faisais espéré trouvé l’or des bases de données relationnelles, plus encore au tournant du siècle avec des systèmes CRM prêt à faire la différence (stratégique) et toute cette battéries d’outils statistiques rhabillée en pelle et pioches du minage de données. Aujourd’hui Big Blue en tête et les société de conseil comme McKinsey reviennent vendre du petaoctet au motif que les grosses données du net sont pleines de ressources, qu’il faut désormais être prêt a accueillir cette munificence recueillies par les milliards de capteurs : PC, laptops, ATM, call center, front-office, terminaux de paiement, mobiles, GSM, tablettes, compteurs divers et variés, TV, et tout ceux qui vont venir bientôt s’encastrer dans nos objets.
Soyons prudent sur les promesse, l’or est peut-être dans les données, mais le difficile c’est de l’extraire, et le nombre pourrait ne pas être suffisant. Les riches alchimistes ne sont pas ceux qui possédaient des mines de plomb, mais ceux qui ont découvert le procédé de la transmutation. Il est nécessaire de réfléchir mieux à ce pourquoi l’information et sa codification en données apporte de la valeur. On a trop souvent défendu un point de vue fétichiste qui attribue à la donnée un pouvoir limitée au placebo. 3 points.
Premier argument : l’avantage de la quantité. Il n’est pas sur du tout que les bases comportementales ont amélioré fortement la connaissance que nous avions des clients. Pour le praticien de la recherche et des études, l’exploitation de la quantité montre que le rendement du volume d’information est rapidement décroissant. S’il faut explorer une consommation, quelques petites dizaines d’interview permettent de se rendre rapidement compte des points clés et d’une grande partie du détail. Les interviews supplémentaire apporteront peu, voire rien. Le corpus obtenu d’un million de signe suffit.
Dans les enquêtes plus codifiées, qui visent à une mesure précision de la fréquence d’un caractère ou du degré d’un opinion, les traits généraux sont saisis à partir de plusieurs centaines d’observation, les milliers permettent de comparer surement des sous-populations, et à l’ordre grandeur de 10000, la précision est bien plus grandes que les erreurs de mesure. La théorie de l’échantillonnage contredit sérieusement les prétentions du big data : il n’y a pas besoin d’un volume très grand d’information pour saisir toute la connaissance, il faut un échantillon bien choisi, représentant correctement la population étudiée. De ce point de vue le big data aussi vaste soit -il, à moins d’être exhaustif, est une source de biais : les information collectées ne couvrent qu’un partie de l’univers et son donc susceptible à des biais.
Ajoutons que sans modèle, les mesures ont peu de chance de devenir connaissance. L’essentiel dans les données ce sont les grilles d’analyse et les modèles issus du raisonnement théorique qui permettent de transformer la donnée en connaissance. Juste un exemple, l’analyse des données de réseau produit aujourd’hui de très beaux graphes, dont les imprimantes modernes peuvent dessiner les plus fines relations. C’est très beau et ça ne nous apprend rien. En revanche disposer d’une théorie et d’un modèle de la structure des réseaux ( par ex : Attachement préférentiel, free scale distribution model) permet d’en calculer des propriétés globales et une partie du comportement. la valeur n’est pas dans les données mais dans le modèle.
Un autre argument justifie l’approche Big data : L’avantage de hétérogénéité. S’il n’y a pas de différence épistémologique entre petites et grandes données. Il y en a une très pratique : les êtres humains sont très différents, et varient dans leurs comportements. Il n’y pas pas une loi d’ensemble, mais des variations fortes. Obtenir des données nombreuses apporte l’avantage de pouvoir dans l’instant de l’action projeter les valeurs des paramètres calculés par les modèles. La valeur de l’information n’est donc pas dans la connaissance mais dans l’exploitation de cette connaissance. 
Et c’est bien là la promesse du big data : l’automatisation de la décision dans des contextes très spécifiques. Là, on comprend mieux la source de cette valeur. Même si on ne dispose que d’un modèle frustre, son adaptation par un seul paramètre (par exemple une élasticité prix qu’on peut individualisée, et qui permet donc d’optimiser individuellement le prix pour tirer tout l’avantage d’une discrimination presque optimale) permet des gains dont l’espérance est sans doute faible unité par unité, mais dont l’accumulation peut sans doute justifier les vastes investissement du Big Data à venir.
Cette automatisation de la décision suppose qu’au-dessus de la couche des capteurs et des dispositifs de stockage et d’échange de l’information, de celle des modèles et des stratégies, se développe une plateforme décisionnelle : une capacité de production de règle de décision, des moteurs d’inférence, des simulateurs. L’exigence c’est le temps réel et l’ubiquité. Pouvoir en quelque seconde comparer les informations contextuelles aux banques de connaissance et de règles pour délivrer une réponse.
Cet avantage de hétérogénéité ne se limite pas à la décision. Nous vivons dans un temps et un espace physique, chacun est soumis à un champs local puissant. Le Big Data permet de produire une information contextualisée de manière continue. Des zones géographique fine et des fenêtre de temps courtes. Nous sommes dans l’échelle du mètre et de la seconde. On imagine la production de tableaux de bord généralisés. Voir dans une banque agence par agence et minute par minute les variation de l’activité, observer les ventes en continu dans le supermarché et détecter les engouement en quelques heures. C’est la possibilité de projeter en temps réel l’information locale aux acteurs locaux pour qu’il prenne de meilleures décisions, aiguise leur connaissance du terrain qui devient la source de valeur.
Le Big Data assurément va remettre en question les organisations. Et proposons une hypothèses : si les système CRM ont centralisé la stratégie et son application, allégeant la charge du réseau physique pour la déplacer sur des plateformes centrales, le Big Data ne sera un succès que s’il s’accompagne d’une décentralisation de la décision et au moins de repenser l’organisation.

A Marketing giant has disappeared – About Professor Andrew Ehrenberg and “How his research happened”

Professor Andrew Ehrenberg a giant in marketing has passed away the 25 August 2010. I therefore would like to remember his important contributions over the last sixty years to marketing knowledge about topics ranging from consumer behaviour (e.g. brand loyalty) to how advertising works. This article outlines how the research of Andrew Ehrenberg, who was Professor of Marketing at the London Business School and London South Bank University, over the last 60+ years came about. it could be synthetize as Science should be simple and generalizable
With hindsight, he was always aiming at findings that were both simple and generalizable. Simple findings so that everybody could see the patterns in data which at first often looked complex. This attempt was published in his famous book in 1975 “Data Reduction” which was reprinted in the Journal of Empirical Generalisations in Marketing Science, 2000, 5, 1-391. It maintains that much of the approach to research methods and prediction depends on finding patterns in data and this is much aided by its presentation in simple tables. Such tables also aid communication of results. The basic ideas are very simple. They depend on the principles of how memory works as the great Nobel Prize Herbert Simon had reported that people could not remember numbers of more than two digits: clear layout of simple tables, rounding of figures, placing figures to be compared in the same column and showing averages.
Generalizable, within stateable conditions, to provide validated benchmarks, possibly lawlike in due course. Andrew Ehrenberg believed that the methods of physical science are applicable to social science. The discovery and development of such lawlike relationships was expressed in an article in the hard science journal Nature (1993) entitled “Even the social sciences have laws”. In it he asserted that even in a field dominated by people’s impulses to buy, that of marketing, there are striking regularities.

In 1955 Andrew Ehrenberg moved into marketing research working on consumer panels. His first milestone paper was “The Pattern of Consumer Purchases” (Ehrenberg 1959) which showed the applicability of the NBD-Negative Binomial Distribution (a heterogeneous mixture of Poissons distributions) to the numbers of purchases of a brand of consumer goods.
In the early 1980s, Ehrenberg extended the NBD model to the Dirichlet model to account for brand choices. This model gave a very close fit to the majority of observed purchasing data and it has been shown to hold over different product categories, big, medium, and small brands of very varied grocery-type products from soap to soup and mascara as well as soap operas, different countries, time, and for both subscription and repertoire repeat-purchase markets. Such a quantified regularity was unprecedented in marketing. So it was (and is still today) exciting. Andrew Ehrenberg had stumbled accidentally on an empirically widely-grounded theory to benchmark how many people do or should buy any brand how often. The theory itself was also exciting. It assumed that consumers behaved “as-if probabilistically”. That is very irregularly.
‘The Dirichlet’, as it became known, has been described as one of the most famous empirical generalisations in marketing, along with the Bass model of diffusion of innovation. It helped him be faithful to his “holy” scientific principles to deliver simple lawlike benchmarks for a number of empirical generalisations, including Double Jeopardy, the Duplication of Purchase law, Polygamous Brand-Buying and Natural Monopoly. These generalizations can be found in his book “Repeat-buying: facts, theory and applications” (1988). This is possibly the most important marketing book ever written on buyer behaviour.
The idea of “Double Jeopardy” proved particularly important, in arguing that a big brand will possess a greater number of loyal customers than a similar, smaller rival almost entirely because of its scale. More specifically, it suggested that repeat buying and other loyalty measures do not vary greatly between individual brands, meaning that increases in penetration are typically behind any growth in sales. One consequence of this finding for marketers was that the most cost-effective use of resources may be to “nudge” occasional customers to buy, rather than trying to “squeeze more out of” dedicated clientele.
Ehrenberg’s interests furthermore centered upon establishing empirical generalisations applicable in areas like brand buying, TV viewing, consumer attitudes and reactions to price changes. (A wide-ranging summary of his contribution to the industry is available here). He derived from these models of buyer behaviour a view on advertising for established brands. It mostly serves to publicise the advertised brand, but seldom seems to persuade. Promotions have only a short-term effect, and do not affect a brand’s subsequent sales or brand loyalty. The extra buyers during the promotion have been seen almost all to have bought it before the promotion rather than being the hoped for new buyers.
Andrew Ehrenberg set up the Centre for Research in Marketing at London South Bank University. At the university of South-Australia the The Ehrenberg-Bass Institute for Marketing Science was raised up for his honors. Both centres have worked with a large number of marketing-oriented companies to address critical issues in marketing. Over the years they contributed to marketing learnings based again and again on reliable, reusable marketing knowledge (empirical generalizations) or the Laws of Marketing.
The Dirichlet thus contributed to lawlike relationships. However, he was very controversy as his kind of theorising – which at base describes and explains already-established and generalised empirical discoveries and which thus post-dicts them – was anathema to many American academic marketing colleagues. They espoused much more ambitious and complex-looking econometric procedures which never worked in practice. Ehrenberg often spoke out against the pseudo-science of complex once-off statistical modeling which even lead him to label the American School of Modeling the “Scientification of Non-Knowledge-SoNK”. Hence he said “I SoNK therefore I Am”. Sadly, therefore has been little dialogue with US academics over the years. Was he too outspoken?
The marketing community has lost a legendary figure, in marketing, market research and the statistics field. It has been written on the website for the The Ehrenberg-Bass Institute for Marketing Science:”Over his life Professor Andrew Ehrenberg’s contribution to the development of marketing science has been enormous.”
But his work continues though to live and to influence the practice of both statistical science and marketing. Worldwide you can find his disciples in the “Dirichlet School”, such as Marc Uncles, Byron Sharp, Cam Rungie in Australia, Peter Fader in the USA who extended the NBD model to the BG/NBD model for customer lifetime value modelisation, in France Jean-Louis Chandon, Gilles Laurent, as well as Lars Meyer-Waarden and Christophe Benavent who recently directed a PHD thesis about the usage of these models to estimate the long term impact of sales promotions on customer lifetime value.
A giant in marketing has disappeared, but his work and his spirit are still alive. New baby disciples are born and continue to develop his work which is omnipresent in marketing literature and which continues to excite academics.

Bibliography:

  • Ehrenberg, A. (1959) The pattern of consumer Purchases, Applied Statistics, 8,1, 26-41.
  • Ehrenberg, A., (1964) Description, Prediction and Decision, Journal of the Market Research Society, 13, 14-33.
  • Ehrenberg, A., (1966) Laws in Marketing – A tailpiece, Journal of the Royal Statistical Society, Series C, 15, 257-268.
  • Chatfield C., Ehrenberg, A. and Goodhardt, G. (1966), Progress on a simplified model of stationary purchasing behaviour, Journal of the Royal Statistical Society A, 129, 317- 367.
  • Ehrenberg, A., (1968) The Elements of lawlike relationships, Journal of the Royal Statistical Society, Series A, 131, 280-329.
  • Ehrenberg, A. (1969), The discovery and use of laws of Marketing, Journal of Advertising Research, 9,2, 11-17.
  • Ehrenberg, A. (1975), Data Reduction, John Wiley, Chichester. Reprinted in the Journal of Empirical Generalisations in Marketing Science, 2000, 5, 1-391 (www.empgens.com).
  • Goodhardt G.J., Ehrenberg, A. and Chatfield (1984), The Dirichlet: A comprehensive model of buying behaviour, Journal of the Royal Statistical Society, Series A, 147, 621-655.
  • Goodhardt GJ, Ehrenberg A., Collins M. (1987), The television audience, 2nd ed. Gower, Aldershot, UK.
  • Ehrenberg A.(1988) Repeat-buying: facts, theory and applications, 2nd ed., Edward Arnold, London; Oxford University Press, New York. Reprinted in the Journal of Empirical Generalisations in Mark Science, 2000, 5, 392-770 (www.empgens.com).
  • Barwise, P. and Ehrenberg, A. (1988), Television and its Audience, Sage, London, 1998.
  • Ehrenberg, A , Goodhardt, G. and Barwise, P (1990), Double jeopardy revisited, Journal of Marketing, 54, July, 82-91.
  • Ehrenberg, A. (1993a), Even the social sciences have laws, Nature, 365, 30 September, 385.
  • Ehrenberg A. and Bound, J. (1993b), Journal of the Royal Statistical Society Series A, 156, 2, 167-206.
  • Ehrenberg A., Hammond K. and Goodhardt G. (1994), The after-effects of price-related consumer Promotions, Journal of Advertising Research, 34,4, 11-21.
  • Ehrenberg, A., Barnard N., Kennedy R., and Bloom, H. (2002), Brand advertising as creative publicity, Journal of Advertising Research, 42, 4, 7-18.
  • Ehrenberg, A. Uncles, M , and Goodhardt, G. (2004), Understanding Brand Performance Measures: Using Dirichlet Benchmarks, Journal of Business Research, 57, 12, 1307 – 1325.
  • Scriven, J.A and Ehrenberg A.S.C. (2004), Consistent Consumer Responses to Price Changes. Australasian Marketing Journal, 12, 3.

Un thermomètre sur mesure ? Des sondages sans instrument.

Au hasard de l’actualité, deux sondages de l’IFOP posent des questions sérieuses de méthodes dans la presse. Celui présumé mesurer l’opinion des français face aux mesures (encore non formulées) de « lutte contre la délinquance » et celui destiné à apprécier l’efficacité perçue par les français du dispositif Hadopi.
On pourrait passer en revue les différents points de méthodes :  la méthode de recueil ( CAWI), la détermination de l’échantillon (quotas), et la présentation des résultats. Ce serait une matière à réécrire un manuel de pratique et d’études des sondages. Bien trop long pour un post. Et finalement pas aussi critiquable que ça à quelques points techniques près
Une seule phrase de Yves-Marie Cann  mérite d’être ici discutée :
« L’initiative d’un sondage peut revenir soit à l’institut soit au commanditaire de l’étude. Dans les deux cas, le questionnaire est toujours le fruit d’un échange approfondi entre les deux parties. À charge ensuite pour l’institut de mettre ceci en question puis de soumettre à son client un projet de questionnaire. Plusieurs allers-retours peuvent avoir lieu avant d’aboutir à la version finale qui sera administrée à un échantillon représentatif. » d’autant plus qu’elle est éclairée par une interrogation un peu plus loin: « Pourquoi s’en prendre systématiquement au thermomètre ? »
S’il s’agit d’un thermomètre, celui-ci doit mesurer un fait objectif : un état particulier d’une quantité particulière – le degré d’agitation moléculaire du milieu sondé, autrement dit la température. Il ne mesure pas la chaleur (qui est un transfert d’energie), et plusieurs échelles seront disponibles pour en donner une quantification ( Kelvin, Celcius ou Fahrenheit). Le thermomètre sera valide s’il mesure ce qu’il doit mesurer – l’agitation moléculaire – et si on le retire trop vite du milieu test, il mesurera autre chose, juste un transfert de chaleur.

En psychologie sociale, c’est ce que les (véritables) spécialistes appellent la validité de contenu : les items (questions)  retenues correspondent-ils à l’idée ( le concept) que l’on souhaite mesurer?

A l’évidence, ce contenu ne peut être négocié. Ce serait pour prendre une image simple, accepter que le thermomètre soit conçu par une discussion entre le patient, le médecin et la sécurité sociale.  Au lieu de capter la température interne du patient, même si à travers tous les orifices cette mesure est fiable (produit la même mesure), elle ne serait en aucun cas valide car entachée d’un biais systématique. On ne mesurerait qu’un rapport de force ou un consensus, d’autant plus qu’à chaque sondage, même exécuté dans les meilleures conditions, la graduation, et la nature même du thermomètre serait modifiée.
Si la mesure a pour ambition d’être objective, elle doit se rapporter à un construit bien établi. Quel est ce construit dans ces enquête? Une opinion, mais relative à quoi? Au soutien de la politique sécuritaire de Sarkozy ou à la croyance que la répression est le meilleur moyen de freiner la délinquance? Au soutien d’un dispositif de lutte contre la copie privée ou à l’attitude à l’égard de la copie privée?
Scientifiquement, même s’il est bien mené techniquement, un tel sondage n’apporte rien, au mieux connaître les intentions de ses commanditaires. De manière marginale, on découvrira des opinions dont la raison reste obscure. On mesurera un vent.
C’est cette critique de fond qui depuis longtemps a été adressée par Bourdieu et que reprennent de manière pédagogique et amusante les Guignols de l’info.
Le sérieux d’un institut de sondage tel que l’Ifop serait de fournir sur de tels sujets des instruments de mesure qui se rapportent à des concepts bien établis. Si au travers d’une opinion particulière il s’agit de rendre compte d’une attitude : degré de xénophobie, l’attitude à l’égard de l’autorité, soutien politique, sentiment de victimisation, des instruments valides dans leur contenu, fiables dans leur application, représentatifs des populations qu’ils appréhendent, sont nécessaires. Pour que l’instrument soit valide il lui faut un contenu, sinon les questions posées sont pure rhétoriques et l’interprétation des réponses, des sophismes.
Pour travailler ainsi les méthodes existent, et de nombreuses échelles de mesures sont disponibles,  pas besoin de R&D avancée, il suffit d’emprunter dans les bibliothèques les manuels adéquats ou de consulter les procédures typiques. Une longue histoire psycho et sociométriques donnent les méthodes adéquates et elle se poursuit, les spécialistes de marketing n’étant pas en reste dans le débat.

Et sans entrer dans la technique on peut espérer que dans de telles enquêtes les concepts ( la température) soient bien établis et que les items (l’alcool ou le mercure du thermomètre) soient représentatifs de ce qu’on veut mesurer. Si les sondeurs font bien leur travail de sondage ( au sens de recueillir les données), soulignons que le fait même de négocier les questions, leur ôte le thermomètre des mains, il n’y a même pas besoin de le briser, il est simplement absent.

—–
Complément : on trouvera ici l’article fondateur (1979) – pour le marketing – de la méthodologie du développement des échelles et quelques ouvrages fondamentaux :

crédit photo

Plus de 24h pour les données – des nouvelles de l’AFM

Au congrès 2010 de l’AFM, qui avait lieu au Mans, nous avons été ravi d’animer avec Lars Meyer-Waarden une table ronde sur les panels, avec Matthieu Joly de MarketingScan et Jean-Pierre Gaucher de IRI.

Quelques questions simples et des réponses franches et éclairantes. Le bilan de ces dernières années est clair : une incroyable montée de la granularité et de l’étendue des données, la généralisation qui met à l’encan la théorie des sondages, une époque bien heureuse pour ceux qui se ravissent des bains d’information. Fraîches et précises, jamais elles n’ont été aussi détaillées, fidèles, précises, et utiles.

Un nouvel horizon? C’est celui de la confiance, et ceux qui possèdent les plus belles bases, celles qui sont constituées à partir des programmes de fidélité ne sont pas prêts encore à syndiquer leurs informations, ne serait-ce que par le biais d’échantillons larges. Mais cela n’empêche pas cette fusion des données de demeurer aujourd’hui l’horizon des panels.

Nous aurons senti dans cette rencontre qu’un appel fort est lancé auprès des académiques, non pas dans le développement de modèles que peu d’annonceurs sont prêts à comprendre, mais dans l’établissement de généralisations empiriques qui aident à la décision.

Nos interlocuteurs auront avoué au fond que la masse des données qu’ils recueillent et redistribuent auprès de leur client est assez peu travaillée dans sa généralité. Elles ont pourtant le potentiel de donner des indications précises sur l’efficacité générale des moyens du mix : le prix, la promotion, la marque et la publicité, sans doute l’effort promotionnel, toutes ces données sont désormais disponibles à une échelle qui est moins celle d’un échantillon que de celle d’une population, laquelle permet dans certains cas une finesse géographique qui au-delà de la dimension stratégique en font aussi des outils de pilotage opérationnel.

Remercions-les d’avoir ouvert leurs réflexions à la communauté de l’AFM, d’avoir dit sans fard l’état de leurs méthodes, et de donner l’espoir qu’une connaissance empirique sérieuse puisse se développer. On ne sait que peu de choses des marchés, on connait rarement la dynamique de leur essor, les présomptions sont plus fortes que les faits. Le travail que font ces sociétés n’est finalement pas que de donner aux acteurs une vision lucide de leurs affaires, mais aussi de permettre que l’on connaisse mieux l’état des marchés et les mécanismes qui les habitent. Il reste à nous organiser pour proposer les projets, les méthodes et les techniques qui feront parler les données.

Nous retiendrons que jamais on a connu une telle abondance de données, mais que jamais on a autant été éloigné des données du marché, au moins dans les milieux académiques. Le message laissé par nos invités est clair : il y a besoin de docteurs, il y a besoin de chercheurs, il y a besoin de donner du sens aux données. Et la panelisation des programme de fid, si elle est souhaitable, n’est pas encore possible…

La panelisation des systèmes CRM – next step ?

Pour le vieux data-miner, celui qui utilisait SPSS en DOS et les codes SAS, celui qui a été nourri au lait de l’analyse des données et des algorithmes de classification, les vingt dernières années ont été une période plus que faste, joyeuse, munificente.

La taille des fichiers double chaque année, la vitesse de calcul rattrape cette taille, rendant obsolète cette vieille théorie des sondages à mesure que les populations dépassaient les milliers d’individus, puis les dizaines de milliers, et les centaines, comptant aujourd’hui en millions, voire dizaines de millions. Les Oracles, les IBM, ont largement contribué à la construction logique de ces bases. D’autres solutions émergent fondées sur le calcul dans les nuages.

Bien sûr en parallèle de ce mouvement, de nouveaux modèles, les algorithmes s’adaptent à ces nouvelles données, et de nombreux modèles sont apparus même s’ils ne sont pas si systématiquement employés par l’industrie : réseaux de neurones, réseaux bayésiens, modèles multi-niveaux, modèles de mélanges, cointégration et modèles VAR, juste pour en citer quelques- uns.

Mais le fait dominant reste dans la dimensions des bases de données. Et il peut être bien d’en caractériser les principales structures.

  • La structure de données élémentaires est celle des enquêtes ad-hoc. Autrefois limitées à quelques centaines d’interviews en face à face, on peut envisager désormais des enquêtes électroniques de plusieurs dizaines de milliers de personnes. Ces données sont transversales, couvrent une ou plusieurs populations, et sont constituées de réponses à un questionnaire. Elles concernent des dimensions attitudinalles : connaissances et jugements.

  • Bien avant l’internet un souci aigu s’est manifesté pour mesurer l’impact des médias de masse. Les panels en sont la solution. Longitudinaux par nature, ils contrôlent l’évolution de valeurs agrégées telles que la part de marché, des taux de pénétration, d’audience, de couverture de la distribution, de prix moyens pratiqués. Les modèles fondamentaux sont les modèles de part de marché qui évalue l’impact des moyens du mix sur le choix des consommateurs. Panel de distributeurs ou de consommateurs, ils saisissent une population dans sa continuité par des données journalières. Internationaux ils couvrent désormais des dizaines de milliers d’individus dont ils suivent quotidiennement les consommations. Trois sociétés dominent : GFk, Homescan, et IRI avec Médiamétrie pour les audiences.

  • Une des conséquences de la révolution des TI a été l’introduction et le développement des système CRM qui capturent avec un grand détail les comportements d’une clientèle. Le volume de ces données peut aller jusqu’à plusieurs millions d’individus, pour lesquels plusieurs dizaines d’actes d’achats sont enregistrés ainsi qu’un nombre équivalent de contacts marketing. La limite de ces données est de limiter la vue avec ceux dont on est au contact, pour le reste du marché on devient aveugle. Segmentation et scoring en sont les outils privilégié.

L’internet bouleverse ce paysage de trois manières :

  • Il généralise la géolocalisation et en fait la clé universelle de mise en relation des bases de données.

  • Il introduit des matrices de relations sociales et permet de mesurer plus que les attitudes, les comportements et les expositions mais aussi les interactions sociales. C’est le graphe social.

  • Il permet l’association de plusieurs bases de données par la mise à disposition d’API au service des développeurs d’application, faisant du mash -up la nouvelle frontière des bases de données : leur interopérabilité.

Dans cette perspective, on peut se demander si on ne va pas vers nouvel outil de mesure ? Très certainement, on peut en imaginer les traits. Il sera d’abord un outil hybride qui associe différentes sources, par exemple en échantillonnant les bases de données CRM des principaux concurrents sur un marché. La juxtaposition de ces bases neutraliserait leur caractère partiel, égocentré, en donnant une vue panoptique du marché.

Mais elle exige une stricte anonymisation. L’unité de matching des données devra par conséquent se réaliser à un autre niveau d’analyse que l’individu et ses identifications (nom, adresses, numéros de comptes..). Un bon candidat est la position géographique, qui permettrait de faire coïncider les données avec celles du web, peut aussi dessiner un niveau très fin d’agrégation très proche de l’individu.

Ainsi le CRM analytique ne s’appuiera plus seulement sur les données comportementales de la clientèle, y compris les contacts, mais s’élargissant aussi par la dimension sociale, il puisera dans dans bases externes, les éléments utile pour mieux comprendre le marché et chacun de ses agents. Reste à identifier les clés légitimes d’appariement des données.