Contrôle NFM 2019

Le formulaire pour transmettre les réponses au contrôle est disponible ici. 

Il sera accessible jusqu’au 23 décembre minuit.

Attention : le lien a été mis à jour le 6/11 à 14h50. Les invitations envoyées avant cette heure ne sont plus valable, les étudiants devront se reconnecter pour mettre leurs réponses à jour, en revenant sur ce lien

Les sentiments à Tahiti : un point d’étape.

Arrivée du Windstar Wind Spirit sur le quai d’Uturoa

Tous les voyages ne sont pas ratés comme ceux qu’étudie Jean-Didier Urbain, et celui que je viens de vivre, sans prétendre au succès, est une étape accomplie. Un double voyage, physique d’abord, car rejoindre ce bout de France antipodique demande l’effort de se perdre dans le temps et dans l’espace, la Polynésie s’apprécie d’abord en regardant les cartes et en lisant l’histoire, séparant les cartes postales et les clichés, pour décrypter dans un continent océanique, le flux et le reflux des cultures, et un voyage mental ensuite quand on peut observer l’objet des observations qu’on veut analyser : les commentaires des internautes, le discours des touristes. Trianguler en quelque sorte et découvrir après leurs mots, l’objet de leur expériences et ceux qui en sont absents ( par exemple le mot pirogue, qui est le sport national, est quasi absent du corpus).

Le but de ce voyage était de faire un point d’étape sur un projet engagé au sein du Centre d’Etudes du Tourisme en Océanie-Pacifique, dont le but pragmatique conduit cependant à de nombreuses questions. Le but est simple : comment analyser les données produites par des dispositifs de crowdsourcing, les commentaires produits par les touristes sur des plateformes telles que TripAdvisor, Twitter, Booking, Airbnb, Expedia, Facebook ou Instagram, et quels enseignements en tirer. Il s’inscrit dans la perspective de l’étude de la satisfaction des consommateurs, l’analyse automatique et massive du texte permettant de construire des indicateurs de sentiments, d’émotion et de sujets de discussion, susceptibles de compléter voir de suppléer aux enquêtes par questionnaires traditionnelles, pour informer en continu les responsables d’activités économiques et sociales liées au tourisme qui représentent 11% de l’économie polynésienne.

A cette étape du projet les questions sont surtout méthodologiques. Comment extraire les données, comment constituer les corpus, comment analyser ce texte.

Pour la première question c’était l’occasion de rencontrer le groupe d’étudiants de licence dirigé par Sébastien Chabrier qui ont réfléchi et développé un programme de scrapping en php. Au-delà de la technique de collecte se pose naturellement des questions légales et éthiques : si ces données présentent peu de caractères personnels et ont une finalité de lecture publique, des problèmes de droit d’exploitation à fin de recherche peuvent se poser. L’éclairage des juristes sera nécessaire.

Pour celle de la constitution des corpus, on découvre peu à peu qu’une seule source n’est pas suffisante. Sur TripAdvisor les consommateurs se conforment à l’injonction et évaluent les hôtels uniquement, on y trouvera peu d’éléments pour apprécier leur expérience subjective du voyage, ils s’en tiennent à des aspects matériels et fonctionnels liés aux conditions d’hébergement. Les réseaux sociaux sont une source plus pertinente pour cet aspect, mais le suivi de certains acteurs – par exemple les commentaires sur les excursionnistes – pourrait être bien utiles. Un outil de collecte, outre son aspect technique et informatique (API et scrapping), doit suivre un plan raisonné de constitution d’un corpus à partir de plusieurs sources.

Sur le plan de l’analyse des données, le principal résultat obtenu est que pour assurer un traitement des données correct, le pré-traitement est une étape cruciale. La solution que nous avons adopté consiste à lemmatiser les mots, à identifier leur formes morphosyntaxiques et les dépendances syntaxiques qui les unissent. On réalise cette étape avec les ressources de CleanNLP et du “Part Of Speech”. Elle permet de nettoyer le texte et d’obtenir des solutions lisibles d’analyse de topics par la méthode LDA et d’approfondir les détails sémantiques (par exemple identifier les qualificatifs de certains objets et concept : hôtel, chambre, alimentation, environnement… Un développement important sera, par la nature des données, de compléter par une meilleure annotation des entités nommées (noms des iles, des établissements, des personnes). Plus généralement l’amélioration de cette étape passe par le développement d’index et de lexiques spécifiques et sans doute d’exploiter d’autres ressources telles que le remarquable Atlas Linguistique de la Polynésie Française.

En confrontant les acteurs aux données, nous avons eu le plaisir d’être accueillis par les représentants du Conseil des Professionnels de l’Hôtellerie et de leur présenter des premiers résultats en phase avec l’expérience vécue des managers et de rencontrer Stéphane Renard, conseiller au Ministère du Tourisme. Ce fût l’occasion de mieux comprendre la problématique économique et touristique : une croissance de 7% du nombre de voyageurs obtenue par l’ouverture de nouvelles lignes ( Frenchbee, United) créant de nouveaux flux de touristes dont une meilleure connaissance est clairement un enjeu. Les hôtels les plus importants n’en capturent que 2 ou 3%, au profit certainement d’autres formes d’hébergement : les pensions de famille qui connaitraient un épisode spéculatif et une professionnalisation qui pourrait les éloigner d’un modèle plus authentique et Airbnb qui semble gagner du terrain dans un contexte où le coût de la vie est très élevé, même pour des touristes aisés. On se verra aussi confirmer la prépondérance de Bora Bora et des motifs de lune de miel. D’autres rencontres avec des acteurs de terrain (Pensions et petits hôtels) nous aura appris l’importance des plateformes (50% de réservation via Booking pour l’un d’eux), le rôle des excursionnistes pour compléter l’expérience de séjour, mais aussi la gestion des approvisionnements. La toile de fond reste la durabilité, l’eau n’est pas partout disponible, la densité de tourisme fait question dans certaines iles, la question de la rencontre avec les populations est cruciale. La spécificité de la Polynésie en dépit de ses apparences de jardin et de son immensité (vaste comme l’Europe), réside dans la rareté de la terre, de petites populations et l’hétérogénéité des infrastructures.

La grande question réside dans la connaissance de ce qui détermine la production de ce type de contenu: quels effets des plateformes et de leur design sur le sentiment et les thématiques? On aura ainsi noté une chute de la production sur TripAdvisor et nous nous interrogeons sur les mécanismes de filtrages et de détection des faux avis. Quels effets des contributeurs qui diffèrent par leurs compétences langagières et leurs expériences de voyage? Un des résultats provisoires de nos analyse s montre ainsi des relations intéressantes entre le sentiment exprimé et le style d’écriture : les commentaires positifs sont plus courts et plus expressifs, les négatifs plus détaillés et plus neutre. Est-ce le résultat d’un biais d’approbation sociale? Quels effets enfin exercent les objets d’évaluation : activités, restaurants, les hôtels, excursions, rencontres, spectacles, couchers de soleils, le lagon, des jardins de corail, les baleines, la vie du Motu. Différentes facettes de l’expérience polynésienne, sans doute façonnées par les mythes, celui du paradis sur terre aux archipels chimériques, celui de la pieuvre qui réunit de ses bras les archipels du triangle polynésien.

La prochaine étape du projet va être une première généralisation. Avec Pierre Ghewy à l’UPF, et Hiriata Brotherson au Cetop, et l’aide des étudiants de la licence informatique, et de Jean-Baptiste Agostin à Paris, il s’agit d’abord de finaliser un premier corpus opérationnel (Tripadvisor+ Twitter+Airbnb), ensuite de tester sur ces données nos modèles et certaines de nos hypothèses en comparant deux sous-ensembles de commentaires : ceux relatifs à l’expérience de Bora-bora et ceux relatifs à celle de Tahiti, en contrôlant par la nature des hébergements.

Rendez-vous en septembre pour présenter les résultats et la méthode (On en a présenté les principes et des éléments de code aux étudiants de l’Ecole Doctorale de l’UPF). On les déposera progressivement sur notre compte Github. (quelques éléments préliminaires sont cependant disponibles sur r.benavent.fr ), le voyage ne fait que débuter.

Annexe : UPF conférence pour tous : ” Les commentaires des internautes, nouvelle source de connaissance des consommateurs. On y présente des premiers résultats et les grandes questions qui traversent la recherche. et une interview dans TahitiInfo.

Ateliers r

https://cran.r-project.org/web/packages/ggridges/vignettes/gallery.html

Cette page désormais concentre les ressources de nos ateliers r. Ce sont des carnets de recherche en Markdown qui réunissent sur une seule page html, les données, le code, les résultats et leurs analyses … et permettent de satisfaire aux nouvelles exigences de la “reproducibility” .

En voici les premiers qui nourrissent les cours que j’anime cette année à Nanterre et ailleurs, ils sont localisés sur le sous-domaine r.benavent.fr, comme de simples pages html. On y rattache bien sur tex2.r, le blog de nos explorations textuelles.

Pour participer aux ateliers, il est demander aux étudiants d’installer r, puis RStudio qui est l’environnement de travail. Ils sont encouragés à installer les packages requis à l’avance avec Rstudio (voici un tutorial). Rcmdr est sans doute le premier package à installer, il permet de disposer d’une interface graphique analogue à celle de spss et facilite la prise en main de r. On utilisera largement le markdown avec son augmentation bookdown.

Carnets de notes

les carnets de notes se retrouvent sur cette page, mais surtout on développera plutôt sur le compte github.

Ateliers r

  • 21 Janvier 2019 – 9h-16h : introduction au text mining avec r – Carnet de note 05 et 06 (Séminaire doctoral – ED EOS – bat A 3ème)
  • 21 Février -14h15h : Programme doctoral Nanterre – r et l’analyse textuelle – carnet de notes 06 (Séminaire collège doctoral – maxweber
  • 11 (?) Février 2019 : Atelier r- Wordfish appliqué au discours de plateformes – Sophie Balech (bat A bureau 322)
  • 25 février 1mars – programme FNEGE Téhéran ” r pour la recherche en gestion”.
  • 4 mars 2019 12h30-15h30 (bat A bureau 322) – Yannick Morvan :
    Latent Growth Modeling (LGM) & Growth Mixture Modeling (GMM) Basics
  • 11-12 Mars 2019 – 9h-16h – 2j : Séminaire doctoral – Ecole doctorale de Management Panthéon- Sorbonne ( ED ) )
    • Environnement r et markdown.
    • Modèle SEM avec lavaan
    • Introduction au machine learning
    • Analyse textuelle
  • 26 avril 2019 : Cours Master Marketing Nanterre ( PULV:
    • “Techniques de segmentations”
    • “Techniques de géomarketing
  • 17 mai 2019 : Cours Master Marketing Nanterre :
    • “Introduction au machine learning”
    • “Analyse textuelle des avis de consommateurs”
  • juin :
  • juillet :
  • septembre – ED tahiti

Master Marketing – modélisation pour le marketing

Objectif : rédiger une note de deux pages présentant une méthode d’analyse en marketing et utilisant des ressources r. Elle sera, si très satisfaisante, ajoutée à tex2r.

Elle sera rédigée en markdown (format d’export html) dans Rstudio. Elle comprend donc le texte explicatif, le code, et ses résultats. On y attachera le jeu de données.

Epreuve alternative : reprendre le document <AnalyseValeurs.rmd> (markdown) et compléter l’analyse sur l’un ou l’autre des points abordés ( commentaire, code supplementaires , variables additionnelles). Son résultat est disponible dans le fichier <AnalyseValeurs.pdf >

On utilisera aussi un échantillon de données (n=~35000) de la base European Social Survey ( vague 8) en particulier les questions relatives au bien-être, à la confiance, et aux valeurs ( Schwartz) . Les éléments de travail se trouvent ici.
Méthodes utilisées dans l’étude de cas :
  1. Analyse univariée avec r avec Rmcdr
  2. Analyse bivariée : Test du chi², analyse de variance, corrélations, … avec Rmcdr
  3. Analyse graphique avec ggplot
  4. Analyse factorielle (ACP, fa, … analyse confirmation, cronbach)
  5. Classification automatique ( ward, Kmeans)
  6. Régressions (simple, multiple, logit, multinomiale)
  7. Structural Equation Modeling

Date rendu : 10 janvier 2019

Sujets :

  • Réaliser un Treemap
  • Appliquer une méthode d’arbre de décision
  • Utiliser stargazer pour comparer plusieurs modèles emboités
  • Appliquer une analyse MDS pour l’étude du positionnement de marques
  • Créer un chloropleth sur les département français, ou commune d’un agglo.
  • Réaliser une analyse de survie dans un fichier client.
  • Corelogram :  questionnaires : Satisfaction, effort, confiance, engagement, recommandation.
  • Analyse de réseau ( igraph) avec techcrunch

 

Les sentiments de Tahiti

onou 2015

Les voyages sont faits pour être vécus mais ce qui en reste ce sont des mots. Des livres de voyageurs, le journal de bord des marins, et aujourd’hui le commentaire des expériences de consommation. A l’heure du post-exotisme ( pas celui-ci), quand le touriste pense rencontrer une culture authentique mais bien souvent façonnée par son propre regard, ce qui compte est moins ce que l’on a vécu que ce que l’on en garde : des selfies et le commentaire des lieux de séjours. C’est certainement moins poétique que Cook et Gauguin, mais plus profitable pour l’industrie du tourisme.

Et c’est à l’occasion d’un de ces voyages, avec l’aide des collègues du Cetop,  des étudiants du master de marketing de l’UPF, et l’écoute du team de Tahiti tourisme, que nous nous sommes lancés dans l’analyse des sentiments exprimés par les touristes à propos de leur séjour  avec une petite incursion dans les packages de text mining de r. Il n’y avait pas de meilleure place pour apprécier la critiques des auberges du paradis.

Pour la méthode, il s’agit d’abord de scrapper, avec les ressources du package rvest, le site de TripAdvisor. La Polynésie est isolée, trouvant ses clients dans trois grands bassins à plus de 10h de vol : l’Asie , les EU et la France. Il y a environ 150 hôtels et 300 pensions. Les résultats donnés dans cette note, sont établis sur la base d’une première extraction centrée sur Tahiti et portant sur 7700 commentaires. On généralisera plus tard sur les 77000 commentaires sur l’ensemble des archipels.

Ce corpus fait l’objet de deux types d’analyses comme on commence à le faire systématiquement dans ce type d’exercice : mesurer la tonalité positive ou négative (le sentiment) et les sujets évoqués ( topic analysis). Pour la première, on emploie tidytext, pour la seconde le modèle LDA du package Topicmodels.

Voici la présentation de travail (demo), avec quelques éléments de code, rendez-vous au piurn 2018 pour une présentation plus complète.

Master Management de l’Innovation GDO/MOPP – Méthodes quantitatives pour la recherche en gestion

L’objectif du cours est de donner une culture quantitative élargie aux étudiants, leur laissant le soin d’approfondir les méthodes qui pourraient être utilisées dans le cadre de leurs projets de recherche.
Il est aussi de le donner le sens critique nécessaire pour évaluer les protocoles employés dans la littérature courante de gestion. Il est dispensé aux étudiants du Master Management de l’Innovation parcours MOPP et GDO.
L’environnement est le langage r avec le package Rcmdr et  rstudio qui sont à installer au préalable. On trouvera un manuel d’initiation ici  et pour la culture générale on encourage à suivre r-blogger.
On travaillera d’abord sur un cas issu du mémoire de Master Marketing de Pauline Vautrot qui a fait l’objet d’une publication. Il porte sur l’effet des preuves de transparence sur l’évaluation d’un moteur de recommandation. Les éléments se trouve sur le dossier google drive.
On utilisera surtout un échantillon de données (n=~35000) de la base European Social Survey ( vague 8) en particulier les questions relative au bien-être, à la confiance, et aux valeurs ( Schwartz) . Les éléments de travail se trouvent ici. Les résultats sont publiés sur cette page, d’autres éléments sur la confiance en France sont aussi disponibles et illustre ce qui est possible de faire avec ces outils.
C’est l’occasion d’introduire, ou de rappeler,  les méthodes statistiques suivantes :

  1. Analyse univariée avec r
  2. Analyse bivariée : Test du khi², analyse de variance, corrélations, …
  3. Analyse factorielle (ACP, fa, … analyse confirmation, cronbach)
  4. Classification automatique ( ward, Kmeans)
  5. Régressions (simple, multiple, logit, multiniveaux)
  6. Structural Equation Modeling

On explorera les principes d’analyses textuelles avec le cas des hôtels de Tahiti et le blog tex2r

Evaluation : au choix : une étude statistique menée avec r, ou l’exposé synthétique d’une méthode (en 4 pages). C’est un travail individuel. A rendre pour le 30 Janvier 2019.

Quelques idées de sujet :

  • Analyse conjointe et modèle de choix ()
  • Modèle de croissance ( SEM)
  • Méthode de la différence des différences (causalité)
  • Modèle de régression avec variable instrumentale ( causalité)
  • Modèles VAR ( économétrie, causalité) : avec une belle application pour l’analyse des effets croisés des médias sur les ventes.
  • Modèle linéaire hiérarchique et analyse multi-niveaux ( économétrie)
  • Mesure des attitudes implicites (Échelle), en se concentrant sur les travaux du Project Implicit
  • Machine learning et catégorisation de document en explorant les solutions proposées par MonkeyLearn pour la catégorisation.
  • Analyse des rendements anormaux (finance) ou event Analysis. Une application à l’effet des surprises ( positives ou négatives) est un très bon point de départ.
  • Régression avec auto-corrélation spatiale ( économétrie). Pour une introduction cette application en marketing en donne une très bonne idée.
  • Modélisation multi-agent appliquée au sciences sociales en passant par l’étude des modèles standard de Netlogo.
  • Analyse des réseaux sociaux ( Réseaux)
  • Data visualisation : de la grammaire des graphes à l’inventaire des solutions créatives en passant par l’ergonomie ou la psychologie.
  • Tests d’équivalence structurelle et comparaison inter-culturelle
  • ….

Des lectures en voici un florilège.

Les séances ont lieu les mardi de 18h00 à 20h30 à l’Ecole des Mines de Paris (Luxembourg) – Pour poursuivre voir aussi l’Atelier Doctoral.

Les Kpis du Marketing – du cockpit au fétiche.

L’invitation de l’Amarc à partager mes réflexions le 21 juin sur la question des indicateurs clés de performance – ces KPIs obsédants, et l’occasion de retrouver un vieux sujet partagé avec un vieux camarade dont la comptabilité est la spécialité, celui du contrôle organisationnel. Et c’est un sujet d’actualité, non seulement par la colonisation du monde par les kpis, les systèmes de notation, de ranking, de scoring, mais aussi parce que dans l’univers des plateformes le contrôle est exercé par le client.  La vidéo est éditée par la pétillante équipe de l’Amarc et je découvre qu’ils (m’) ont fabriqué un très joli mini Mooc.

 

 

Anatomie des échanges collaboratifs

La perceuse du voisin est le modèle même de l’utopie collaborative. Mettre à disposition des autres des équipements dont on a pas forcément l’usage est une évidence durable et économique : augmenter le taux d’usage des appareils qu’on utilise à l’occasion semble être méritoire. Si cet échange est gratuit, qu’une application en réduit les coûts de transaction, c’est à une véritable économie contributive qu’on donne naissance, et on espère que ces circuit assure une vaste circulation, dont une des utopie est l’anthropologie de la Kula.

Ce n’est qu’une hypothèse et nous avons encore besoin de comprendre comment s’organisent les cascades de prêts et d’emprunts et de mieux comprendre comment spontanément la circulation des objets s’organisent.  Certains se prêtent à l’échange : la perceuse-visseuse, la poussette, le vélo, des barbecue et des gauffriers. D’autres moins. Un défi est ouvert, retrouver dans le Paris Bobo les circuits du don que Malinowski a cru trouver entre  la Paouasie, les iles Salomons et les Trobiands.

Par chance, on nous a confié une base de données relevant toutes les transactions effectuées pendant une certaine période ( supérieure à une année) sur une portion substantielle des utilisateurs de la plateformes (disons près de 15% d’entre eux). Ce n’est pas du big data mais assez substantiel : plus de 5000 transactions qui aboutissent ou non ( le taux de transformation est en fait de l’ordre de 30%).

Un premier réflexe est naturellement de représenter graphiquement le réseau constitué par ces échanges. C’est un réseaux directionnel qui associe un prêteur à un emprunteur. Il nous suffit de reformater les données sous la forme de duplets associant le code unique d’un prêteur et celui d’un emprunteur, et de quelques autres attributs définissant la nature de l’objet échangé et la date de l’échange. L’usage direct de igraph et d’un algorithme de force ( KK) via r, permet de produire à peu de frais cette structure. La taille des noeuds est proportionnelle aux nombre de transactions engagées. Au comprend qu’au centre du graphe se trouvent les utilisateurs actifs et que dans la périphéries les utilisateurs occasionnels.  On améliorera la représentation en élimant les couches externes (échangeurs avec une à 3 transaction) pour mieux examiner la structure du macro-composant.

figure 1 : réseau des engagements de transactions

Le phénomène principal est en fait la diversité des statuts : si certains échangent beaucoup et d’autres échangent moins, on s’aperçoit vite qu’ils diffèrent aussi par ceque certains prêtent plus souvent qu’ils n’en empruntent. Nous ne sommes pas dans un espace de marché réciproques (où une contrepartie monetaire est échangée) mais un espace asymétrique où des prêteurs principaux et des emprunteurs net doivent trouver un équilibre à nombre d’objets offerts constant ou croissant. Nous ne développerons pas plus cette aspect essentiel de la dynamique des réseaux d’échange et de leur croissance, pour nous concentrer sur des questions de structure.

Pour caractériser cette différenciation des rôles ( prêteur vs emprunteurs) nous pouvons employer le modèle HITS de  Jon Keinberg qui permet de scorer le caractère de Hub ou d’autorité des nœuds d’un réseau. Un hub est un site qui pointe vers de nombreux sites qui ont une autorité. Il permet à chacun de trouver le meilleur chemin. Une autorité est un site vers lequel pointent de nombreux hub. Il est reconnu comme un point d’intérêt par la plupart des carrefours. Ces notions précédent  et amplifie le concept du PageRanks et rendent compte de la différenciation des rôles dans les réseaux digitaux.

Dans l’économie du partage les hubs délivrent une grande variété de biens  à des emprunteurs fréquents; les autorités sont ces emprunteurs réguliers qui assurent les emprunts auprès des propriétaires les plus populaires. Les uns et les autres forment en quelques autres le moteur du système.  Leur dynamique est le coeur nucléaire de la collaboration, ils amènent rapidement à atteindre le seuil critique.

Une fonction permet de représenter ces deux aspects des noeuds : sont-il plutôt des hubs où des autorités, des donneurs universels et receveurs généraux. En voici les deux cartes. On s’aperçoit dans la périphérie du nuage des transactions uniques, aux coeur du réseaux on s’aperçoit que les hub sont plus nombreux que les autorités : peu d’emprunteurs en dernier ressort absorbent l’offre dominante de hubs plus nombreux.

A ce stade nous sommes encore descriptif : les données que nous avons traitées sont jusqu’à présent moins des transaction que les entames de transaction, et on dispose d’une information: la transaction qui s’engage se conclue-t-elle? Nous connaissons la structure des relations, nous pouvons caractériser chaque acteur comme Hub ou Autorité, nous savons si une transaction engagée entre deux acteurs est conclue, un petit modèle prédictif est bienvenu. Quels sont les facteurs qui facilitent la transaction ?

Un premier évident est celui de la nature du produit échangé. Nous avons fait des tests préliminaires et il semble bien que ce soit déterminant, mais un peu de travail est encore nécessaire pour codifier les objets et mieux tester cette source de succès.

Le second facteur semble aussi naturel : la transaction se fera en fonction des caractéristiques des acteurs, et notamment leur score de hub et d’autorité. Ceci représente l’hypothèse du “social embedness” qui enonce que les acteurs ne sont pas homogènes et que leur pouvoir dépend de leur inclusion sociale.  C’est notre hypothèse principale.

Un troisième facteur est lui relatif à l’expérience : quand des acteurs répètent l’échange, en principe si tout se passe bien la confiance s’installe avec l’habitude et on s’attend à ce que la probabilité que la transaction réussisse soit plus grande.

Testons cela par un modèle de régression logistique  dans lequel la variable dépendante est le caractère achevé ou non de l’échange, et les déterminants sont le nombre d’échanges déjà réalisés, le score de hub du prêteur, et celui d’autorité pour caractériser  l’emprunteur.

(Intercept)                  -1.388  0.0391   -35.557 ****
authority_score.        0.355  0.1809     1.963   **
hub_score.                -0.492  0.3121    -1.578    *
NBdePrets                  0.036  0.0059    6.264   ****

* 10%   ** 5%   *** 1%   ***** <<1%

Les résultats sont clair : plus grand est le nombre d’échange entre deux utilisateurs et plus grande est la probabilité de réalisation. Plus élevé est le score d’autorité plus l’échange a de chance de se réaliser : les emprunteurs fréquents réalisent mieux leurs demandes, ils ont sans doute appris à utiliser la plateforme, on mesure ainsi un effet d’apprentissage, une autre interprétation c’est qu’échangeant souvent ils développent une expérience qui est un signal de confiance. En revanche le score de hub ne semble pas influencer la probabilité de réalisation de l’échange. Une hypothèse est que si les hubs bénéficient d’un effets de réputation, ils souffrent aussi d’un effet de compétition. Offrant le plus de biens aux meilleurs emprunteurs, leurs biens, uniques, sont mis en concurrence, et certains emprunteurs échouent. Les deux effets se neutraliseraient.

Nous n’irons pas plus loin dans la discussions. Les éléments quantitatifs sont encore assez bruts, la méthode générale est données, nous devons en affiner l’application. Mais déjà des résultats émergent pour comprendre comment les flux de l’échange s’organisent et plus précisément comment la structure sociale peut déterminer au travers de la position des échangeurs la probabilité qu’un échange se produise.

Et voilà qu’avec quelques ligne de r, nous refaisons le voyage des argonautes.

Atelier doctoral : r pour la recherche en sciences sociales

L’objectif de l’atelier, organisé dans le cadre des enseignement de l’ED EOS,  est la prise en main de r au travers de l’interface graphique Rcmdr  de Rstudio et du markdown.

Il s’agit aussi de découvrir la communauté r et ses ressources en 4 séances de 3 heures : décrire, expliquer, modéliser.

Public visé et pré requis : Doctorants et autres chercheurs. Connaissance des tests statistiques et autres statistiques élémentaires. Une habitude de SAS ou SPSS fera du bien.

Les participants doivent installer Rstudio au préalable. l’interface pour démarrer est Rcmdr, c’est le premier package à installer au préalable.

Calendrier de la formation (période de l’année): 19 et 20 décembre 2018  et 21 janvier 2019 (9h30-12h30 : 13h30-16h30) – Lieu : Université Paris Nanterre Bat A 3ème étage salle 304 ou 305)

Inscription : envoyer un CV à christophe.benavent@gmail.com avant le 10 décembre. – nombre maxi d’inscrits : 15.

Programme

Le jeu de donnée utilisé provient de l’European Social Survey. On s’intéressera en particulier à l’évolution de la confiance en France de 2002 à 2016 : on trouvera ici les données et le fichier markdown.  Les résultats peuvent être consultable sur cette page. On regardera en complément ce document ( Bonheur et valeur dans 18 pays européens)

    • 1 : l’environnement r: communauté, packages, langage et prise en main  avec Rcmdr. Comparaison de moyennes, corrélation, représentation graphique avec ggplot (pour des exemples voir ici ou )
      • 2 :  Clustering  ( package Ape, dendro…) et analyses multidimensionnelles ( AF, AFC, MDS)
      • 3 : Régression avec r: des MCOs au modèle linéaire généralisé (Logit, Poisson, etc) (package lme4, Stargazer pour des présentations standardisées.
    • 4 : Échelles de mesure et équations structurelles avec Psych et Lavaan : on traitera notamment de l’influence de la confiance sur le bien être.
  • Une session supplémentaire le 21 janvier sera consacrée au text mining

ECTS : la participation au séminaire donne droit à 3 crédits.

Ressources :

    •  r blogger : un meta blog centré sur r , très riche en exemple et application.
    •  StackOverflow : plateforme de Q&A pour les développeurs, r y est fréquemment mis en question
      • PS : un cours similaire est donné dans le cadre du Master Management de l’innovation GDO/MOPP.
    • La doc de ggplot2, le package des graphiques élégants.

Crédit Photo : comme souvent l’excellent Jeff Safi