Atelier doctoral : r pour la recherche en sciences sociales

L’objectif de l’atelier, organisé dans le cadre des enseignement de l’ED EOS,  est la prise en main de r au travers de l’interface graphique Rcmdr et de Rstudio et de découvrir la communauté r et ses ressources en 4 séances de 3 heures : décrire, expliquer, modéliser.

Public visé et pré requis : Doctorants et autres chercheurs. Connaissance des tests statistiques et autres statistiques élémentaires. Une habitude de SAS ou SPSS fera du bien.

Les participants doivent installer Rstudio au préalable. l’interface pour démarrer est Rcmdr, c’est le premier package (Rcmdr) à installer au préalable.

Calendrier de la formation (période de l’année): 12 et 13 Avril 2018 (9h30-12h30 : 13h30-16h30)

Lieu : Université Paris Nanterre Bat A 3ème étage 304 ou 305)

Inscription : envoyer un CV à christophe.benavent@parisnanterre.fr avant le 20 mars. – nombre maxi d’inscrits : 15.

Programme

Le jeu de donnée utilisé provient de l’European Social Survey. Les liens vers les packages utilisés et des ressources utiles sont donnés dans le programme. Le site principal de r est le CRAN. Les ressources sur internet sont nombreuses : par exemple r-bloggers riche en exemples d’applications, ou  le cookbook for r.  Les forums regorgent de ressources notamment Stalk Overflow.

  • 1 : l’environnement r: communauté, packages, langage et prise en main  avec Rcmdr. Comparaison de moyennes, corrélation, représentation graphique avec ggplot (pour des exemples voir ici ou )
  • 2 :  Clustering  ( package Ape, dendo…)
  • 3 : Régression avec r: des MCOs au modèle linéaire généralisé (Logit, Poisson, etc) ( package lme4, Stargazer pour des présentations standardisées.
  • 4 : Analyse factorielles, échelles de mesure et équations structurelles avec Psych et Lavaan : on traitera notamment de l’influence de la confiance sur le bien être.

Une séance supplémentaire est données sur l’analyse lexicale avec  tm , Rtsne et LDA. Dans le cadre du séminaire ? Le cas de l’analyse de topic d’un flux de tweets.

ECTS : la participation au séminaire donne droit à 1.5 ECTS

Ressources :

  •  r blogger : un meta blog centré sur r , très riche en exemple et application.
  •  StackOverflow : plateforme de Q&A pour les développeurs, r y est fréquemment mis en question
  • PS : un cours similaire est donné dans le cadre du Master Management de l’innovation GDO/MOPP.
  • La doc de ggplot2, le package des graphiques élégants.

Crédit Photo : comme souvent l’excellent Jeff Safi

Confiance et bonheur : la force du lien

Il y a des moments de bonheur. Par exemple, celui où on découvre un jeu de données merveilleux et que l’on part à son exploration. Ce jeu de donnée est celui de l’ESS Eric. Parfaitement préparé et documenté, il cumule 8 vagues d’enquêtes menées tout les deux ans, dans plus d’une vingtaine de pays, et porte chaque fois sur près de 2000 personnes, au total près de 300 000 répondants. Un véritable baromètre du bonheur, du bien être, des valeurs, de la confiance, de l’engagement politique et civique, des sentiments de discrimination, des orientations politiques et religieuses, de l’inclusion.

Une mine d’or. Je ne serais pas le premier à m’y plonger, des centaines de publications ont déjà employé telle ou telle fraction des données. C’est aussi un très bel outil pédagogique, une base magnifique pour introduire à la puissance et l’élégance de r et du traitement statistiques des données, d’autant qu’elles sont aisément téléchargeables, sous des formats remarquables de limpidité.

Pour le spécialiste de marketing qui a été nourri au lait de la relation client, et par conséquent de celui de la confiance, il y a l’occasion remarquable de revenir, à grande échelle (la base que nous exploitons représentent 220 000 individus au cours de 6 vagues et dans 16 pays) sur le lien qu’elle entretient avec la satisfaction, et d’en tester la solidité à travers les pays, le temps, et les strates sociales. On se concentrera dans cette analyse sur un tout petit nombre de questions relatives à trois variables clés.

  • le bonheur bien sûr, mesuré comme satisfaction dans la vie, et sentiment de bonheur actuelle ( 2 items). L’état de santé perçue est aussi mesuré, mais nous ne le prendrons pas en compte, pas plus que la satisfaction à l’égard de l’économie qui dans des premiers tests se révèle peu lié au bonheur. C’est notre variable dépendante.
  • la confiance interpersonnelle : se méfie-t-on des autres, espère-t-on leur aide, sont juste juste ? 3 items sont proposés qui présente un alpha de l’ordre de 0,80.
  • la confiance dans les institutions dont une analyse plus fine révèle qu’elle possède trois facettes : l’administration, le politique, les institutions internationales. Nous les traiterons comme une dimension. l’alpha est de 0.92.

Notre modèle est donc extrêmement simple, une regression à deux variables corrélées. on l’estime avec un modèle SEM évalué avec l’élégance du Package Lavaan. Le temps de calcul ne dépasse pas la seconde, un poil plus quand des modèles à nombreux groupes sont estimés.


library(lavaan)
library(semPlot)
model <- '
# measurement model
Trust_Interperson =~ Trust_tst + Trust_fair + Trust_hlp
Trust_Institution =~ Trust_parlemnt + trust_legal + trust_police + trust_polit+trust_parti+trust_eu +trust_un
Happyness =~ happy + stflife
# regression
Happyness ~ Trust_Institution + Trust_Interperson
# residual correlations
Trust_Institution ~~ Trust_Interperson'

fit0 <- sem(model, data=Conf)
summary(fit0, standardized=TRUE)

pathdiagram<-semPaths(fit0,whatLabels="std", intercepts=FALSE, style="lisrel",
nCharNodes=0, nCharEdges=0,edge.label.cex = 0.6, label.cex=1.2,
curveAdjacent = FALSE,title=TRUE, layout="tree2",curvePivot=TRUE)

Le résultat du modèle est résumé dans le graphe suivant, il montre que le bonheur dépend plus de la confiance interpersonnelle, locale, de voisinage, de l’idée qu’on se fait de l’humain que de la confiance dans les institutions. Clairement deux fois plus. Si une unité de confiance interpersonnelle supplémentaire est obtenue, c’est 0,36 de bonheur gagné, le même gain de confiance envers les institutions s’accroît le bonheur que de 0,16 unités. La confiance reste un sentiment général, une corrélation de 0, 55 est enregistrée entre ses deux facettes, elles évoluent de manière conjointe ce qui se comprend : de bonnes institutions conduisent à ce que les gens se fassent confiance,, mais pour faire confiance aux institutions il faut aussi faire confiance aux gens qui les habitent.

Avoir autant de données pour une presque trivialité peut sembler inutile, sauf si l’on cherche à voir ce qui peut faire varier ce modèle. L’idée est donc simplement d’évaluer ce modèle pour différents groupes. La seule chose à faire est de modifier l’ajustement avec cette ligne :

fitG <- sem(model, data=Conf, group="cntry",group.equal = c("loadings"))

Le même modèle est estimé pour les différents groupes (le pays dans l’exemple) avec la contrainte que les loadings sont égaux entre les groupes : on mesure les mêmes variables partout ( avec group.equal). Ce qui peut changer c’est le poids des variables de confiance sur le bonheur, et leur degré de corrélation. Cette approche consiste en fait à faire une sorte de méta-analyse. Répéter l’estimation du modèle sur différent groupes et analyser la variance de ses paramètres.

Avant de présenter les résultats, un élément préalable doit être communiqué : le niveau de bonheur au niveau du pays est inversement lié à la variance du bonheur au sein du pays. Autrement dit ce qui fait baisser l’indice de bonheur c’est l’inégalité du bonheur! Ce qui fait un pays heureux c’est quand tous le sont également, c’est le cas dans les pays du nord de l’Europe, le sud et  l’est sont soumis aux inégalités.

Dans le diagramme suivant, le poids des paramètres du modèle pour chaque pays est indiqué par la longueur des barres horizontale. On retrouve le pattern général, la confiance interpersonnelle tourne autour de 0.35, et c’est en France qu’elle est la plus déterminante. La confiance dans les institutions pèse le plus sur le bonheur en hongrie. Les pays sont classés par ordre de bonheur, s’il y a des différences il est difficile de comprendre pourquoi.

Tant qu’à faire nous avons systématisé cette approche sur un certains nombre de variables. Tous les résultats sont regroupés dans le graphique suivant. Et en voici les enseignements principaux.

Premier point, dans la figure (b) on n’observe pas de changement notable dans l’indice de bonheur sur une période de 10 ans. Le poids des deux facettes de la confiance sur le bonheur reste stable aussi. C’est sans doute le fruit de l’homéostasie du bonheur et de la satisfaction. Le monde peut changer, il se réajuste.

Second point, dans la figure (a) on observe un changement important  d’une génération à l’autre  : l’influence de la confiance interpersonnelle sur le bonheur est plus faible pour les plus jeunes, qui sont aussi les plus heureux. Auraient-ils moins besoin des autres, des proches pour jouir de la vie? le poids de la confiance institutionnelle lui ne varie pas et reste identique à travers les génération.  Ce résultat est d’autant plus intriguant, qu’il ne se retrouve pas dans le niveau de diplôme. C’est donc bien un effet de génération et non de socialisation et qui semble s’engager à partir de la génération des années 50.

Le dernier point met en évidence le prix de la solitude, les foyers solo sont bien moins heureux que les autres comme l’indique la figure (d ). Elle fait aussi apparaître un léger effet en U : la confiance interpersonnelle compte plus quand on est seul ( les bonnes relations de voisinage peuvent compenser le célibat), et lorsque le foyer est nombreux ( le conflit en groupe est un enfer!).

L’exercice ici est largement pédagogique et méthodologiques. D’autres variables doivent être intégrées au modèle, ne serait- ce que la santé, l’intégration sociale qui joue un rôle clé, peuvent être les valeurs, les opinions politiques religieuses. Sa limite est celle d’une première analyse. Elle est aussi celle du pouvoir explicatif des modèles. La confiance à elle seule explique qu’une faible partie de la variance : avec un contrôle par le pays et l’inclusion de la confiance dans l’économie et l’état subjectif de santé, on explique au mieux 24% de la variance. Il reste la place pour d’autre facteurs.

Son intérêt empirique réside dans ce fait intéressant : la très grande stabilité des paramètres du modèle à travers l’espace, le temps, et les catégories sociales, même si l’effet générationnel qu’on vient de mettre en évidence par cette sorte de méta-analyse reste encore à expliquer. Il témoigne pour une forme homéostatique du bonheur qui s’ajusterait aux changements de conditions de vie. Il  dépend peu de la confiance envers les institutions, il est plus nettement lié à l’idée que les autres sont bienveillants même si ce lien s’affaiblit avec les générations.