Big data – un oeil sur les organisations

Big Data : Water Landscape
Il y a un air de déjà vu dans la promesse du Big Data, un quelque chose d’avant les années 2000 quand ont nous faisais espéré trouvé l’or des bases de données relationnelles, plus encore au tournant du siècle avec des systèmes CRM prêt à faire la différence (stratégique) et toute cette battéries d’outils statistiques rhabillée en pelle et pioches du minage de données. Aujourd’hui Big Blue en tête et les société de conseil comme McKinsey reviennent vendre du petaoctet au motif que les grosses données du net sont pleines de ressources, qu’il faut désormais être prêt a accueillir cette munificence recueillies par les milliards de capteurs : PC, laptops, ATM, call center, front-office, terminaux de paiement, mobiles, GSM, tablettes, compteurs divers et variés, TV, et tout ceux qui vont venir bientôt s’encastrer dans nos objets.
Soyons prudent sur les promesse, l’or est peut-être dans les données, mais le difficile c’est de l’extraire, et le nombre pourrait ne pas être suffisant. Les riches alchimistes ne sont pas ceux qui possédaient des mines de plomb, mais ceux qui ont découvert le procédé de la transmutation. Il est nécessaire de réfléchir mieux à ce pourquoi l’information et sa codification en données apporte de la valeur. On a trop souvent défendu un point de vue fétichiste qui attribue à la donnée un pouvoir limitée au placebo. 3 points.
Premier argument : l’avantage de la quantité. Il n’est pas sur du tout que les bases comportementales ont amélioré fortement la connaissance que nous avions des clients. Pour le praticien de la recherche et des études, l’exploitation de la quantité montre que le rendement du volume d’information est rapidement décroissant. S’il faut explorer une consommation, quelques petites dizaines d’interview permettent de se rendre rapidement compte des points clés et d’une grande partie du détail. Les interviews supplémentaire apporteront peu, voire rien. Le corpus obtenu d’un million de signe suffit.
Dans les enquêtes plus codifiées, qui visent à une mesure précision de la fréquence d’un caractère ou du degré d’un opinion, les traits généraux sont saisis à partir de plusieurs centaines d’observation, les milliers permettent de comparer surement des sous-populations, et à l’ordre grandeur de 10000, la précision est bien plus grandes que les erreurs de mesure. La théorie de l’échantillonnage contredit sérieusement les prétentions du big data : il n’y a pas besoin d’un volume très grand d’information pour saisir toute la connaissance, il faut un échantillon bien choisi, représentant correctement la population étudiée. De ce point de vue le big data aussi vaste soit -il, à moins d’être exhaustif, est une source de biais : les information collectées ne couvrent qu’un partie de l’univers et son donc susceptible à des biais.
Ajoutons que sans modèle, les mesures ont peu de chance de devenir connaissance. L’essentiel dans les données ce sont les grilles d’analyse et les modèles issus du raisonnement théorique qui permettent de transformer la donnée en connaissance. Juste un exemple, l’analyse des données de réseau produit aujourd’hui de très beaux graphes, dont les imprimantes modernes peuvent dessiner les plus fines relations. C’est très beau et ça ne nous apprend rien. En revanche disposer d’une théorie et d’un modèle de la structure des réseaux ( par ex : Attachement préférentiel, free scale distribution model) permet d’en calculer des propriétés globales et une partie du comportement. la valeur n’est pas dans les données mais dans le modèle.
Un autre argument justifie l’approche Big data : L’avantage de hétérogénéité. S’il n’y a pas de différence épistémologique entre petites et grandes données. Il y en a une très pratique : les êtres humains sont très différents, et varient dans leurs comportements. Il n’y pas pas une loi d’ensemble, mais des variations fortes. Obtenir des données nombreuses apporte l’avantage de pouvoir dans l’instant de l’action projeter les valeurs des paramètres calculés par les modèles. La valeur de l’information n’est donc pas dans la connaissance mais dans l’exploitation de cette connaissance. 
Et c’est bien là la promesse du big data : l’automatisation de la décision dans des contextes très spécifiques. Là, on comprend mieux la source de cette valeur. Même si on ne dispose que d’un modèle frustre, son adaptation par un seul paramètre (par exemple une élasticité prix qu’on peut individualisée, et qui permet donc d’optimiser individuellement le prix pour tirer tout l’avantage d’une discrimination presque optimale) permet des gains dont l’espérance est sans doute faible unité par unité, mais dont l’accumulation peut sans doute justifier les vastes investissement du Big Data à venir.
Cette automatisation de la décision suppose qu’au-dessus de la couche des capteurs et des dispositifs de stockage et d’échange de l’information, de celle des modèles et des stratégies, se développe une plateforme décisionnelle : une capacité de production de règle de décision, des moteurs d’inférence, des simulateurs. L’exigence c’est le temps réel et l’ubiquité. Pouvoir en quelque seconde comparer les informations contextuelles aux banques de connaissance et de règles pour délivrer une réponse.
Cet avantage de hétérogénéité ne se limite pas à la décision. Nous vivons dans un temps et un espace physique, chacun est soumis à un champs local puissant. Le Big Data permet de produire une information contextualisée de manière continue. Des zones géographique fine et des fenêtre de temps courtes. Nous sommes dans l’échelle du mètre et de la seconde. On imagine la production de tableaux de bord généralisés. Voir dans une banque agence par agence et minute par minute les variation de l’activité, observer les ventes en continu dans le supermarché et détecter les engouement en quelques heures. C’est la possibilité de projeter en temps réel l’information locale aux acteurs locaux pour qu’il prenne de meilleures décisions, aiguise leur connaissance du terrain qui devient la source de valeur.
Le Big Data assurément va remettre en question les organisations. Et proposons une hypothèses : si les système CRM ont centralisé la stratégie et son application, allégeant la charge du réseau physique pour la déplacer sur des plateformes centrales, le Big Data ne sera un succès que s’il s’accompagne d’une décentralisation de la décision et au moins de repenser l’organisation.

A Marketing giant has disappeared – About Professor Andrew Ehrenberg and “How his research happened”

Professor Andrew Ehrenberg a giant in marketing has passed away the 25 August 2010. I therefore would like to remember his important contributions over the last sixty years to marketing knowledge about topics ranging from consumer behaviour (e.g. brand loyalty) to how advertising works. This article outlines how the research of Andrew Ehrenberg, who was Professor of Marketing at the London Business School and London South Bank University, over the last 60+ years came about. it could be synthetize as Science should be simple and generalizable
With hindsight, he was always aiming at findings that were both simple and generalizable. Simple findings so that everybody could see the patterns in data which at first often looked complex. This attempt was published in his famous book in 1975 “Data Reduction” which was reprinted in the Journal of Empirical Generalisations in Marketing Science, 2000, 5, 1-391. It maintains that much of the approach to research methods and prediction depends on finding patterns in data and this is much aided by its presentation in simple tables. Such tables also aid communication of results. The basic ideas are very simple. They depend on the principles of how memory works as the great Nobel Prize Herbert Simon had reported that people could not remember numbers of more than two digits: clear layout of simple tables, rounding of figures, placing figures to be compared in the same column and showing averages.
Generalizable, within stateable conditions, to provide validated benchmarks, possibly lawlike in due course. Andrew Ehrenberg believed that the methods of physical science are applicable to social science. The discovery and development of such lawlike relationships was expressed in an article in the hard science journal Nature (1993) entitled “Even the social sciences have laws”. In it he asserted that even in a field dominated by people’s impulses to buy, that of marketing, there are striking regularities.

In 1955 Andrew Ehrenberg moved into marketing research working on consumer panels. His first milestone paper was “The Pattern of Consumer Purchases” (Ehrenberg 1959) which showed the applicability of the NBD-Negative Binomial Distribution (a heterogeneous mixture of Poissons distributions) to the numbers of purchases of a brand of consumer goods.
In the early 1980s, Ehrenberg extended the NBD model to the Dirichlet model to account for brand choices. This model gave a very close fit to the majority of observed purchasing data and it has been shown to hold over different product categories, big, medium, and small brands of very varied grocery-type products from soap to soup and mascara as well as soap operas, different countries, time, and for both subscription and repertoire repeat-purchase markets. Such a quantified regularity was unprecedented in marketing. So it was (and is still today) exciting. Andrew Ehrenberg had stumbled accidentally on an empirically widely-grounded theory to benchmark how many people do or should buy any brand how often. The theory itself was also exciting. It assumed that consumers behaved “as-if probabilistically”. That is very irregularly.
‘The Dirichlet’, as it became known, has been described as one of the most famous empirical generalisations in marketing, along with the Bass model of diffusion of innovation. It helped him be faithful to his “holy” scientific principles to deliver simple lawlike benchmarks for a number of empirical generalisations, including Double Jeopardy, the Duplication of Purchase law, Polygamous Brand-Buying and Natural Monopoly. These generalizations can be found in his book “Repeat-buying: facts, theory and applications” (1988). This is possibly the most important marketing book ever written on buyer behaviour.
The idea of “Double Jeopardy” proved particularly important, in arguing that a big brand will possess a greater number of loyal customers than a similar, smaller rival almost entirely because of its scale. More specifically, it suggested that repeat buying and other loyalty measures do not vary greatly between individual brands, meaning that increases in penetration are typically behind any growth in sales. One consequence of this finding for marketers was that the most cost-effective use of resources may be to “nudge” occasional customers to buy, rather than trying to “squeeze more out of” dedicated clientele.
Ehrenberg’s interests furthermore centered upon establishing empirical generalisations applicable in areas like brand buying, TV viewing, consumer attitudes and reactions to price changes. (A wide-ranging summary of his contribution to the industry is available here). He derived from these models of buyer behaviour a view on advertising for established brands. It mostly serves to publicise the advertised brand, but seldom seems to persuade. Promotions have only a short-term effect, and do not affect a brand’s subsequent sales or brand loyalty. The extra buyers during the promotion have been seen almost all to have bought it before the promotion rather than being the hoped for new buyers.
Andrew Ehrenberg set up the Centre for Research in Marketing at London South Bank University. At the university of South-Australia the The Ehrenberg-Bass Institute for Marketing Science was raised up for his honors. Both centres have worked with a large number of marketing-oriented companies to address critical issues in marketing. Over the years they contributed to marketing learnings based again and again on reliable, reusable marketing knowledge (empirical generalizations) or the Laws of Marketing.
The Dirichlet thus contributed to lawlike relationships. However, he was very controversy as his kind of theorising – which at base describes and explains already-established and generalised empirical discoveries and which thus post-dicts them – was anathema to many American academic marketing colleagues. They espoused much more ambitious and complex-looking econometric procedures which never worked in practice. Ehrenberg often spoke out against the pseudo-science of complex once-off statistical modeling which even lead him to label the American School of Modeling the “Scientification of Non-Knowledge-SoNK”. Hence he said “I SoNK therefore I Am”. Sadly, therefore has been little dialogue with US academics over the years. Was he too outspoken?
The marketing community has lost a legendary figure, in marketing, market research and the statistics field. It has been written on the website for the The Ehrenberg-Bass Institute for Marketing Science:”Over his life Professor Andrew Ehrenberg’s contribution to the development of marketing science has been enormous.”
But his work continues though to live and to influence the practice of both statistical science and marketing. Worldwide you can find his disciples in the “Dirichlet School”, such as Marc Uncles, Byron Sharp, Cam Rungie in Australia, Peter Fader in the USA who extended the NBD model to the BG/NBD model for customer lifetime value modelisation, in France Jean-Louis Chandon, Gilles Laurent, as well as Lars Meyer-Waarden and Christophe Benavent who recently directed a PHD thesis about the usage of these models to estimate the long term impact of sales promotions on customer lifetime value.
A giant in marketing has disappeared, but his work and his spirit are still alive. New baby disciples are born and continue to develop his work which is omnipresent in marketing literature and which continues to excite academics.

Bibliography:

  • Ehrenberg, A. (1959) The pattern of consumer Purchases, Applied Statistics, 8,1, 26-41.
  • Ehrenberg, A., (1964) Description, Prediction and Decision, Journal of the Market Research Society, 13, 14-33.
  • Ehrenberg, A., (1966) Laws in Marketing – A tailpiece, Journal of the Royal Statistical Society, Series C, 15, 257-268.
  • Chatfield C., Ehrenberg, A. and Goodhardt, G. (1966), Progress on a simplified model of stationary purchasing behaviour, Journal of the Royal Statistical Society A, 129, 317- 367.
  • Ehrenberg, A., (1968) The Elements of lawlike relationships, Journal of the Royal Statistical Society, Series A, 131, 280-329.
  • Ehrenberg, A. (1969), The discovery and use of laws of Marketing, Journal of Advertising Research, 9,2, 11-17.
  • Ehrenberg, A. (1975), Data Reduction, John Wiley, Chichester. Reprinted in the Journal of Empirical Generalisations in Marketing Science, 2000, 5, 1-391 (www.empgens.com).
  • Goodhardt G.J., Ehrenberg, A. and Chatfield (1984), The Dirichlet: A comprehensive model of buying behaviour, Journal of the Royal Statistical Society, Series A, 147, 621-655.
  • Goodhardt GJ, Ehrenberg A., Collins M. (1987), The television audience, 2nd ed. Gower, Aldershot, UK.
  • Ehrenberg A.(1988) Repeat-buying: facts, theory and applications, 2nd ed., Edward Arnold, London; Oxford University Press, New York. Reprinted in the Journal of Empirical Generalisations in Mark Science, 2000, 5, 392-770 (www.empgens.com).
  • Barwise, P. and Ehrenberg, A. (1988), Television and its Audience, Sage, London, 1998.
  • Ehrenberg, A , Goodhardt, G. and Barwise, P (1990), Double jeopardy revisited, Journal of Marketing, 54, July, 82-91.
  • Ehrenberg, A. (1993a), Even the social sciences have laws, Nature, 365, 30 September, 385.
  • Ehrenberg A. and Bound, J. (1993b), Journal of the Royal Statistical Society Series A, 156, 2, 167-206.
  • Ehrenberg A., Hammond K. and Goodhardt G. (1994), The after-effects of price-related consumer Promotions, Journal of Advertising Research, 34,4, 11-21.
  • Ehrenberg, A., Barnard N., Kennedy R., and Bloom, H. (2002), Brand advertising as creative publicity, Journal of Advertising Research, 42, 4, 7-18.
  • Ehrenberg, A. Uncles, M , and Goodhardt, G. (2004), Understanding Brand Performance Measures: Using Dirichlet Benchmarks, Journal of Business Research, 57, 12, 1307 – 1325.
  • Scriven, J.A and Ehrenberg A.S.C. (2004), Consistent Consumer Responses to Price Changes. Australasian Marketing Journal, 12, 3.

Le pari au cœur des modèles statistiques – le principe de Bayes.

Dans les tests des campagnes digitales et des autres opérations, le calcul statistique est un outil incontournable pour statuer sur la fiabilité des résultats constatés. Affirmer dans un test A/B que le taux de transformation de A est supérieur à celui de B, passe par une évaluation statistique.
Presque toutes les disciplines scientifiques ont recours à ces outils pour conforter leurs affirmations. L’utilisation de ces processus sont attachés à de nombreuse méthodes, parmi celles les plus connues on trouve les tests d’hypothèse avec la notion d’intervalles de confiance. Les tests permettent de confronter deux hypothèses: l’hypothèse « Nulle » et « Alternative », en rejetant une au profit de l’autre. Cette pratique a pour objectif de déterminer parmi les deux hypothèses, laquelle est la plus vraisemblable. Les intervalles de confiance ont pour but de fixer des marges qui accordent une certaine confiance aux résultats. Par exemple pour déterminer la proportion d’intention de vote d’une population donnée, on dira que cette dernière se trouve dans un intervalle de [43%; 49%] à 95% de confiance ( la taille de l’intervalle dépend du nombre de personnes interrogée, ici environ 400).
    Ces deux outils s’inscrivent dans le cadre d’une approche dite fréquentiste de l’inférence statistique. Cette dernière manipule des quantités appelées estimateurs pour faire de l’inférence statistique. Ces estimateurs deviennent des composantes sur lesquelles les tests d’hypothèse et intervalles de confiances sont obtenus.
    Pour pouvoir appliquer ces tests ou construire des intervalles de confiance, il essentiel d’avoir un échantillon aléatoire ( sondage) à partir duquel on infère les résultats généraux. Cette inférence est une procédure qui permet à partir des données de remonter aux causes de leur réalisation, en vue de généraliser ses conclusions à l’ensemble de la population; elle prend des formes paramétriques et non-paramétriques.
    • L’inférence paramétrique suppose que le processus de réalisation des données observées est identifiable parmi un ensemble de lois de probabilité indexées par un paramètre θ. L’inférence est effectuée pour cibler le paramètre, et ainsi déterminer la loi de probabilité qui régit le phénomène. Le test en t de comparaison de deux moyennes en est un exemple.
    • L’inférence non paramétrique, comme son nom l’indique ne suppose pas l’existence d’un paramètre d’intérêt, elle raisonne directement sur les lois de probabilité. Le test du Chi 2 en est l’exemple type.
    L’inférence est le cœur du raisonnement statistique, chaque calcul est accompagné par cette dernière. Elle consiste généralement à calculer une statistique de test à partir des données, et d’en induire la probabilité qu’elle prenne cette valeur, alors que le test la présume nulle, pour répondre à la question de savoir si l’écart entre la situation théorique et empirique est du à une cause systématique, ou à une fluctuation de la population sondée.Dans la pratique, l’utilisation de l’inférence paramétrique est dominante. Elle est effectuée généralement dans le cadre fréquentiste, alors que de plus en plus c’est un cadre bayésien qui s’impose dans la littérature technique.
    Une des premières différences dans l’approche bayésienne par rapport au raisonnement fréquentiste réside dans la façon de définir une probabilité. Le raisonnement bayésien définit la probabilité d’un évènement comme un pari sur sa future réalisation. Cette optique est dite subjective car elle est liée à l’individu. De son coté le cadre classique définit la probabilité comme la limite de sa fréquence de réalisation en supposant que les évènements sont répétables et réalisables dans des conditions identiques. La première limite de ce raisonnement est le cas des évènements non répétables (à notre horizon), par exemple qu’un astéroïde percute la terre. Dans ce cas la probabilité ne peut être qu’un pari et non le fruit d’une régularité.
    La deuxième divergence réside dans la façon d’analyser. Contrairement au cadre fréquentiste le calcul bayésien attribue une loi de probabilité sur le paramètre. Implicitement cela signifie que le paramètre d’intérêt θ est vu comme une variable aléatoire. L’intérêt d’une telle loi est de traduire la connaissance disponible avant observations. Cette loi dite loi a priori sur le paramètre, peut résumer un avis d’expert ou encore des anciennes données. Durant l’analyse, Elle se transformera en une loi a posteriori dès que les données seront observées. Cette actualisation est rendue possible grâce à la formule de Bayes.
    Ainsi sachant qu’une clientèle est constituée de 3 segments, et que les taux de réponse dans les trois segments sont de 1%, 2% et 3%, on peut calculer aisément la probabilité qu’un client ayant répondu appartienne au premier segment  est de : 1/3*0.01 /(1/3*0.01+1/3*0.02 +1/3*0.03 ) = 0.17 ( de 0.33 et 0.5 pour les deux autres segments). En revanche si on connait la distribution des clients entre les segment ( 50%, 40% et 10%), le calcul est modifié et la probabilité est de 0.31%. La connaissance a priori de la répartition nous permet d’actualiser le calcul. ( la formule est sur le t-shirt).
    D’après Robert (2006), L’analyse statistique bayésienne se ramène fondamentalement à une inversion. De cette façon elle permet de remonter des effets (données disponibles) aux causes (paramètres). Le grand avantage de cette optique est que les résultats obtenus sont avancés sachant les données et non de façon asymptotique. Ce constat devient très utile pour résoudre les problèmes de décision où peu de données sont disponibles.
    L’approche bayésienne est étroitement liée à la théorie de la décision. Elle utilise des éléments de cette théorie, pour contrôler les résultats de l’inférence. Cette harmonie est rendue possible grâce aux manipulations des lois a posteriori sur les paramètres. Ce cadre décisionnel permet d’effectuer des tests d’hypothèses et construire des intervalles de crédibilité. Néanmoins le cadre bayésien trouve des critiques dans la façon de fixer ses lois a priori. Car l’information introduite via ces lois, est dite subjective et peu perturber les résultats finaux. Une réponse à cette question est partiellement résolue par les a priori non informatifs (loi uniforme, prior de jeffrey, etc…), mais un grand travail reste à faire dans se sens.
    Pour un bayésien toute information disponible est importante, de plus injecter des informations ainsi est en accord avec sa vision de pari probabiliste. Pour lui être objectif, est de bien justifier ses choix dans l’analyse. Même si ce choix de modélisation reste incompris, les lois a priori sont bien utiles aux bayésiens quand on est face à un manque de données, difficulté que le cadre fréquentiste peine à combler, même si les deux approches donnent les mêmes résultats quand il y a abondance

    Le cadre bayésien est une approche qui s’est beaucoup développée grâce aux outils informatiques (il peut être gourmand en calcul), et permet grâce à la mise à jour des connaissances de réactualiser les inférences statistiques. Il contribue à une approche apprenante des systèmes et des modèles telle que chaque nouvelle information permet de mettre à jour l’estimation. Le raisonnement bayésien désormais s’étend à travers de nombreuses applications : méthodes de filtrage de spam, réseaux bayésiens , méthodes d’estimation de régression linéaire et logistique via les modèles hiérarchique bayésien, méthodes de classification. Ces techniques qui permettent de modéliser des phénomènes complexes sont très prisées dans plusieurs domaines touchés par le problème d’incertitudes et les événements rares. Le raisonnement bayésien permet dans ce cas, de quantifier les incertitudes en avançant des les lois de probabilité sur lesquelles le risque peut être supervisé. Le contrôle du risque d’avalanche en est un exemple. Le champs est étendu!  Il peut trouver de beaux terrains en méta-analyse.

    Mais pour clore ce qui n’est qu’une invitation, voici un exemple où l’inférence bayésienne donne des capacités d’apprentissage aux robots.

    Et quelques livres:

    Un thermomètre sur mesure ? Des sondages sans instrument.

    Au hasard de l’actualité, deux sondages de l’IFOP posent des questions sérieuses de méthodes dans la presse. Celui présumé mesurer l’opinion des français face aux mesures (encore non formulées) de « lutte contre la délinquance » et celui destiné à apprécier l’efficacité perçue par les français du dispositif Hadopi.
    On pourrait passer en revue les différents points de méthodes :  la méthode de recueil ( CAWI), la détermination de l’échantillon (quotas), et la présentation des résultats. Ce serait une matière à réécrire un manuel de pratique et d’études des sondages. Bien trop long pour un post. Et finalement pas aussi critiquable que ça à quelques points techniques près
    Une seule phrase de Yves-Marie Cann  mérite d’être ici discutée :
    « L’initiative d’un sondage peut revenir soit à l’institut soit au commanditaire de l’étude. Dans les deux cas, le questionnaire est toujours le fruit d’un échange approfondi entre les deux parties. À charge ensuite pour l’institut de mettre ceci en question puis de soumettre à son client un projet de questionnaire. Plusieurs allers-retours peuvent avoir lieu avant d’aboutir à la version finale qui sera administrée à un échantillon représentatif. » d’autant plus qu’elle est éclairée par une interrogation un peu plus loin: « Pourquoi s’en prendre systématiquement au thermomètre ? »
    S’il s’agit d’un thermomètre, celui-ci doit mesurer un fait objectif : un état particulier d’une quantité particulière – le degré d’agitation moléculaire du milieu sondé, autrement dit la température. Il ne mesure pas la chaleur (qui est un transfert d’energie), et plusieurs échelles seront disponibles pour en donner une quantification ( Kelvin, Celcius ou Fahrenheit). Le thermomètre sera valide s’il mesure ce qu’il doit mesurer – l’agitation moléculaire – et si on le retire trop vite du milieu test, il mesurera autre chose, juste un transfert de chaleur.

    En psychologie sociale, c’est ce que les (véritables) spécialistes appellent la validité de contenu : les items (questions)  retenues correspondent-ils à l’idée ( le concept) que l’on souhaite mesurer?

    A l’évidence, ce contenu ne peut être négocié. Ce serait pour prendre une image simple, accepter que le thermomètre soit conçu par une discussion entre le patient, le médecin et la sécurité sociale.  Au lieu de capter la température interne du patient, même si à travers tous les orifices cette mesure est fiable (produit la même mesure), elle ne serait en aucun cas valide car entachée d’un biais systématique. On ne mesurerait qu’un rapport de force ou un consensus, d’autant plus qu’à chaque sondage, même exécuté dans les meilleures conditions, la graduation, et la nature même du thermomètre serait modifiée.
    Si la mesure a pour ambition d’être objective, elle doit se rapporter à un construit bien établi. Quel est ce construit dans ces enquête? Une opinion, mais relative à quoi? Au soutien de la politique sécuritaire de Sarkozy ou à la croyance que la répression est le meilleur moyen de freiner la délinquance? Au soutien d’un dispositif de lutte contre la copie privée ou à l’attitude à l’égard de la copie privée?
    Scientifiquement, même s’il est bien mené techniquement, un tel sondage n’apporte rien, au mieux connaître les intentions de ses commanditaires. De manière marginale, on découvrira des opinions dont la raison reste obscure. On mesurera un vent.
    C’est cette critique de fond qui depuis longtemps a été adressée par Bourdieu et que reprennent de manière pédagogique et amusante les Guignols de l’info.
    Le sérieux d’un institut de sondage tel que l’Ifop serait de fournir sur de tels sujets des instruments de mesure qui se rapportent à des concepts bien établis. Si au travers d’une opinion particulière il s’agit de rendre compte d’une attitude : degré de xénophobie, l’attitude à l’égard de l’autorité, soutien politique, sentiment de victimisation, des instruments valides dans leur contenu, fiables dans leur application, représentatifs des populations qu’ils appréhendent, sont nécessaires. Pour que l’instrument soit valide il lui faut un contenu, sinon les questions posées sont pure rhétoriques et l’interprétation des réponses, des sophismes.
    Pour travailler ainsi les méthodes existent, et de nombreuses échelles de mesures sont disponibles,  pas besoin de R&D avancée, il suffit d’emprunter dans les bibliothèques les manuels adéquats ou de consulter les procédures typiques. Une longue histoire psycho et sociométriques donnent les méthodes adéquates et elle se poursuit, les spécialistes de marketing n’étant pas en reste dans le débat.

    Et sans entrer dans la technique on peut espérer que dans de telles enquêtes les concepts ( la température) soient bien établis et que les items (l’alcool ou le mercure du thermomètre) soient représentatifs de ce qu’on veut mesurer. Si les sondeurs font bien leur travail de sondage ( au sens de recueillir les données), soulignons que le fait même de négocier les questions, leur ôte le thermomètre des mains, il n’y a même pas besoin de le briser, il est simplement absent.

    —–
    Complément : on trouvera ici l’article fondateur (1979) – pour le marketing – de la méthodologie du développement des échelles et quelques ouvrages fondamentaux :

    crédit photo