Les sentiments à Tahiti : un point d’étape.

Arrivée du Windstar Wind Spirit sur le quai d’Uturoa

Tous les voyages ne sont pas ratés comme ceux qu’étudie Jean-Didier Urbain, et celui que je viens de vivre, sans prétendre au succès, est une étape accomplie. Un double voyage, physique d’abord, car rejoindre ce bout de France antipodique demande l’effort de se perdre dans le temps et dans l’espace, la Polynésie s’apprécie d’abord en regardant les cartes et en lisant l’histoire, séparant les cartes postales et les clichés, pour décrypter dans un continent océanique, le flux et le reflux des cultures, et un voyage mental ensuite quand on peut observer l’objet des observations qu’on veut analyser : les commentaires des internautes, le discours des touristes. Trianguler en quelque sorte et découvrir après leurs mots, l’objet de leur expériences et ceux qui en sont absents ( par exemple le mot pirogue, qui est le sport national, est quasi absent du corpus).

Le but de ce voyage était de faire un point d’étape sur un projet engagé au sein du Centre d’Etudes du Tourisme en Océanie-Pacifique, dont le but pragmatique conduit cependant à de nombreuses questions. Le but est simple : comment analyser les données produites par des dispositifs de crowdsourcing, les commentaires produits par les touristes sur des plateformes telles que TripAdvisor, Twitter, Booking, Airbnb, Expedia, Facebook ou Instagram, et quels enseignements en tirer. Il s’inscrit dans la perspective de l’étude de la satisfaction des consommateurs, l’analyse automatique et massive du texte permettant de construire des indicateurs de sentiments, d’émotion et de sujets de discussion, susceptibles de compléter voir de suppléer aux enquêtes par questionnaires traditionnelles, pour informer en continu les responsables d’activités économiques et sociales liées au tourisme qui représentent 11% de l’économie polynésienne.

A cette étape du projet les questions sont surtout méthodologiques. Comment extraire les données, comment constituer les corpus, comment analyser ce texte.

Pour la première question c’était l’occasion de rencontrer le groupe d’étudiants de licence dirigé par Sébastien Chabrier qui ont réfléchi et développé un programme de scrapping en php. Au-delà de la technique de collecte se pose naturellement des questions légales et éthiques : si ces données présentent peu de caractères personnels et ont une finalité de lecture publique, des problèmes de droit d’exploitation à fin de recherche peuvent se poser. L’éclairage des juristes sera nécessaire.

Pour celle de la constitution des corpus, on découvre peu à peu qu’une seule source n’est pas suffisante. Sur TripAdvisor les consommateurs se conforment à l’injonction et évaluent les hôtels uniquement, on y trouvera peu d’éléments pour apprécier leur expérience subjective du voyage, ils s’en tiennent à des aspects matériels et fonctionnels liés aux conditions d’hébergement. Les réseaux sociaux sont une source plus pertinente pour cet aspect, mais le suivi de certains acteurs – par exemple les commentaires sur les excursionnistes – pourrait être bien utiles. Un outil de collecte, outre son aspect technique et informatique (API et scrapping), doit suivre un plan raisonné de constitution d’un corpus à partir de plusieurs sources.

Sur le plan de l’analyse des données, le principal résultat obtenu est que pour assurer un traitement des données correct, le pré-traitement est une étape cruciale. La solution que nous avons adopté consiste à lemmatiser les mots, à identifier leur formes morphosyntaxiques et les dépendances syntaxiques qui les unissent. On réalise cette étape avec les ressources de CleanNLP et du “Part Of Speech”. Elle permet de nettoyer le texte et d’obtenir des solutions lisibles d’analyse de topics par la méthode LDA et d’approfondir les détails sémantiques (par exemple identifier les qualificatifs de certains objets et concept : hôtel, chambre, alimentation, environnement… Un développement important sera, par la nature des données, de compléter par une meilleure annotation des entités nommées (noms des iles, des établissements, des personnes). Plus généralement l’amélioration de cette étape passe par le développement d’index et de lexiques spécifiques et sans doute d’exploiter d’autres ressources telles que le remarquable Atlas Linguistique de la Polynésie Française.

En confrontant les acteurs aux données, nous avons eu le plaisir d’être accueillis par les représentants du Conseil des Professionnels de l’Hôtellerie et de leur présenter des premiers résultats en phase avec l’expérience vécue des managers et de rencontrer Stéphane Renard, conseiller au Ministère du Tourisme. Ce fût l’occasion de mieux comprendre la problématique économique et touristique : une croissance de 7% du nombre de voyageurs obtenue par l’ouverture de nouvelles lignes ( Frenchbee, United) créant de nouveaux flux de touristes dont une meilleure connaissance est clairement un enjeu. Les hôtels les plus importants n’en capturent que 2 ou 3%, au profit certainement d’autres formes d’hébergement : les pensions de famille qui connaitraient un épisode spéculatif et une professionnalisation qui pourrait les éloigner d’un modèle plus authentique et Airbnb qui semble gagner du terrain dans un contexte où le coût de la vie est très élevé, même pour des touristes aisés. On se verra aussi confirmer la prépondérance de Bora Bora et des motifs de lune de miel. D’autres rencontres avec des acteurs de terrain (Pensions et petits hôtels) nous aura appris l’importance des plateformes (50% de réservation via Booking pour l’un d’eux), le rôle des excursionnistes pour compléter l’expérience de séjour, mais aussi la gestion des approvisionnements. La toile de fond reste la durabilité, l’eau n’est pas partout disponible, la densité de tourisme fait question dans certaines iles, la question de la rencontre avec les populations est cruciale. La spécificité de la Polynésie en dépit de ses apparences de jardin et de son immensité (vaste comme l’Europe), réside dans la rareté de la terre, de petites populations et l’hétérogénéité des infrastructures.

La grande question réside dans la connaissance de ce qui détermine la production de ce type de contenu: quels effets des plateformes et de leur design sur le sentiment et les thématiques? On aura ainsi noté une chute de la production sur TripAdvisor et nous nous interrogeons sur les mécanismes de filtrages et de détection des faux avis. Quels effets des contributeurs qui diffèrent par leurs compétences langagières et leurs expériences de voyage? Un des résultats provisoires de nos analyse s montre ainsi des relations intéressantes entre le sentiment exprimé et le style d’écriture : les commentaires positifs sont plus courts et plus expressifs, les négatifs plus détaillés et plus neutre. Est-ce le résultat d’un biais d’approbation sociale? Quels effets enfin exercent les objets d’évaluation : activités, restaurants, les hôtels, excursions, rencontres, spectacles, couchers de soleils, le lagon, des jardins de corail, les baleines, la vie du Motu. Différentes facettes de l’expérience polynésienne, sans doute façonnées par les mythes, celui du paradis sur terre aux archipels chimériques, celui de la pieuvre qui réunit de ses bras les archipels du triangle polynésien.

La prochaine étape du projet va être une première généralisation. Avec Pierre Ghewy à l’UPF, et Hiriata Brotherson au Cetop, et l’aide des étudiants de la licence informatique, et de Jean-Baptiste Agostin à Paris, il s’agit d’abord de finaliser un premier corpus opérationnel (Tripadvisor+ Twitter+Airbnb), ensuite de tester sur ces données nos modèles et certaines de nos hypothèses en comparant deux sous-ensembles de commentaires : ceux relatifs à l’expérience de Bora-bora et ceux relatifs à celle de Tahiti, en contrôlant par la nature des hébergements.

Rendez-vous en septembre pour présenter les résultats et la méthode (On en a présenté les principes et des éléments de code aux étudiants de l’Ecole Doctorale de l’UPF). On les déposera progressivement sur notre compte Github. (quelques éléments préliminaires sont cependant disponibles sur r.benavent.fr ), le voyage ne fait que débuter.

Annexe : UPF conférence pour tous : ” Les commentaires des internautes, nouvelle source de connaissance des consommateurs. On y présente des premiers résultats et les grandes questions qui traversent la recherche. et une interview dans TahitiInfo.

Les sentiments de Tahiti

onou 2015

Les voyages sont faits pour être vécus mais ce qui en reste ce sont des mots. Des livres de voyageurs, le journal de bord des marins, et aujourd’hui le commentaire des expériences de consommation. A l’heure du post-exotisme ( pas celui-ci), quand le touriste pense rencontrer une culture authentique mais bien souvent façonnée par son propre regard, ce qui compte est moins ce que l’on a vécu que ce que l’on en garde : des selfies et le commentaire des lieux de séjours. C’est certainement moins poétique que Cook et Gauguin, mais plus profitable pour l’industrie du tourisme.

Et c’est à l’occasion d’un de ces voyages, avec l’aide des collègues du Cetop,  des étudiants du master de marketing de l’UPF, et l’écoute du team de Tahiti tourisme, que nous nous sommes lancés dans l’analyse des sentiments exprimés par les touristes à propos de leur séjour  avec une petite incursion dans les packages de text mining de r. Il n’y avait pas de meilleure place pour apprécier la critiques des auberges du paradis.

Pour la méthode, il s’agit d’abord de scrapper, avec les ressources du package rvest, le site de TripAdvisor. La Polynésie est isolée, trouvant ses clients dans trois grands bassins à plus de 10h de vol : l’Asie , les EU et la France. Il y a environ 150 hôtels et 300 pensions. Les résultats donnés dans cette note, sont établis sur la base d’une première extraction centrée sur Tahiti et portant sur 7700 commentaires. On généralisera plus tard sur les 77000 commentaires sur l’ensemble des archipels.

Ce corpus fait l’objet de deux types d’analyses comme on commence à le faire systématiquement dans ce type d’exercice : mesurer la tonalité positive ou négative (le sentiment) et les sujets évoqués ( topic analysis). Pour la première, on emploie tidytext, pour la seconde le modèle LDA du package Topicmodels.

Voici la présentation de travail (demo), avec quelques éléments de code, rendez-vous au piurn 2018 pour une présentation plus complète.