Analyse sémantique d’une question ouverte

Définition : Une question ouverte est une question avec champ(s) de réponse libre, à laquelle les participants peuvent donc répondre avec leurs propres mots. Pour une enquête en ligne, ils tapent leur réponse au clavier. Pour une enquête papier, ils l’écrivent en toutes lettres. Les réponses à une question ouverte sont appelées “verbatim”.

La valorisation des verbatim recueillis à l’aide des questions ouvertes est un élément important pour comprendre les retours des clients. Aujourd’hui il existe différentes méthodes pour exploiter ces verbatim, l’analyse sémantique est l’une d’elle. Elle permet de détecter automatiquement le contenu des réponses. Nous allons vous présenter cette approche à travers cette article.

Prenons l’exemple d’une question ouverte que l’on peut retrouver dans un baromètre interne :

« Pour quels motifs vous êtes-vous rendu sur l’interface salarié ? »

Le première étape de l’analyse sémantique consiste à nettoyer les verbatim :

  • Suppression des mots non pertinents ou stop word (mot de liaisons, pronom, adverbe…)
  • Uniformisation des verbatims (supprimer la ponctuation, mettre le texte en minuscule)
  • Uniformisation de l’orthographe (singulier ou pluriel, verbe ou action)

Dans un second temps, on utilise un algorithme pour analyser chaque verbatim et dénombrer tous les mots et ensemble de mots ou expressions utilisés :

  • A ce stade, une intervention humaine est nécessaire pour sélectionner les mots et expressions pertinentes à conserver pour la suite de l’analyse
  • Il faut connaitre le contexte de l’étude, le sujet et la question posée pour comprendre les résultats de l’analyse
  • Il peut être nécessaire de revenir aux verbatim bruts pour saisir les subtilités du langage humain qu’un algorithme ne peut pas détecter

Il est possible de représenter sous forme d’histogramme la fréquence de citation des termes

Ces termes vont être regroupés afin de créer des thématiques personnalisées, selon vos propres axes d’analyse.
Ainsi l’on peut connaître le pourcentage de verbatim qui parlent, du goût ou de la consistance du produit.

L’analyse peut être faite au global, mais également pour un sous-ensemble (genre, âge, niveau de satisfaction…).

Le nuage de mots généré à partir des mots et expressions sélectionnés représente les termes les plus souvent évoqués, leur taille étant proportionnelle à leur nombre de citations.

Quelques chiffres :

  • 700 verbatim récoltés
  • 3000 mots dont 449 mots uniques
  • Terme le plus cité : congés (152 occurrences)