Archives
N'hésitez pas à chiner dans les archives, j'y consigne mes recettes.
mardi 17 juin 2008
Attentes et image
« Connais-toi toi-même ». Cette injonction de Socrate (le philosophe, pas le joueur de football brésilien) est d’actualité au lendemain du bac de philosophie. Elle me fait penser, dans mon métier, à cette bonne habitude de confronter l’image que le client a de lui-même à celle que lui renvoie le marché. Cette dernière est facile à explorer, en particulier visuellement à travers des cartes d’image qui restituent comment le marché situe les différents produits en concurrence. Mais l’image de soi, ça se mesure comment ? J’utilise le raccourci suivant en assimilant l’image de soi aux attentes implicites des clients dans leur choix. Si l’on a pris la précaution de compléter le questionnement image par des questions d’intérêt (ex. : « intéressé certainement », « peut-être », « certainement pas ») et de choix (ex. : produit choisi en premier), on calculera pour chaque interviewé et chaque item d’image un indice de proximité (corrélation pondérée, par exemple) entre l’image des produits, l’intérêt et le choix. Cet indice reflète ce à quoi le client attache de l’importance au moment du choix. Il suffit ensuite de croiser cet indice avec la question de choix pour obtenir une carte des attentes dans laquelle figurent les mêmes éléments que dans la carte d’image (des marques et des items d’image), mais vus sous un autre angle. En général, les deux cartes – image et attentes – sont proches. Si un produit (marque, enseigne etc.) ne se positionne pas de la même façon en image et en attentes, c’est qu’il y a un problème. Soit le produit n’est pas à la hauteur du client, soit le client s’est trompé de produit.
lundi 16 juin 2008
Le bootstrap tronqué
Il n’existe pas, à ma connaissance, de méthode statistique de régression linéaire se donnant comme objectif prioritaire de satisfaire une contrainte de signe. Les régressions PLS et Ridge s’attaquent au problème de la multicolinéarité, mais rien dans leur conception ne garantit que le coefficient de régression d’une variable sera du même signe que son coefficient de corrélation simple avec la variable à expliquer. Le bootstrap tronqué, une méthode ad-hoc de mon cru, permet de satisfaire simplement ce type de contrainte et le fait, semble-t’il, sans nuire à la robustesse des coefficients. Tronquer la distribution est un artifice de calcul, mais c’est un artifice plus naturel et plus robuste que ceux employés par d’autres méthodes. Le principe est le suivant : soit un échantillon X de N valeurs, et f(X) une statistique calculée sur ces valeurs. Dans notre cas, X représente la variable à expliquer et les variables explicatives, f(X) les coefficients de régression. On tire au hasard avec remise K échantillons de N valeurs de l’échantillon initial. Chaque réplication ou « échantillon bootstrap » contient autant de valeurs que l’échantillon de base, ces valeurs étant les mêmes, mais avec des fréquences potentiellement différentes. On calcule ensuite la statistique f(X,b) pour chaque réplication b. A l’issue de ces deux étapes – génération des échantillons, calcul de la statistique f(X,b) - on dispose d’une distribution empirique dont on extrait une moyenne et un intervalle de confiance bootstrap. Dans notre cas, il suffit de calculer cette moyenne, coefficient par coefficient, sur les seuls échantillons où ils respectent la contrainte de signe. A ce stade, on dispose d’un jeu de coefficients qu’il faut soumettre à une dernière petite translation/dilatation pour obtenir une qualité d’ajustement d’autant plus proche de celle de la régression multiple sans contrainte que les coefficients initiaux ne violent pas trop ladite contrainte. Pour en savoir plus, cliquer ici.
Quali-quanti
Le quali-quanti est au monde des études ce que Nessie est au Loch Ness : on en parle beaucoup, on le voit rarement. Comme son nom l’indique, le quali-quanti c’est du quali et du quanti pour le même prix, le beurre et l’argent du beurre, un tableau pointilliste ou cubiste qui se ferait passer pour de la peinture de la Renaissance. On peut regarder quelque chose par les deux bouts de la lorgnette, mais on ne voit pas la même chose. On peut aussi regarder par un bout, puis par un autre bout, mais ce n’est plus du quali-quanti qui, par définition, consiste à regarder par les deux bouts en même temps. Récemment, pourtant, je me suis approché de la bête dans le cadre d’un test automobile. Dans ce genre d’investigation, on explore une voiture en statique sous toutes ses facettes à travers une batterie d’items quantitatifs organisée sous forme d’arborescence, du plus général au plus détaillé. Les interviewés passent plus de trois heures à noter chaque voiture (note sur 10), un marathon perceptuel dont on pourrait croire qu’il se termine en bouillie pour les chats mais, ô miracle, dont on parvient quand même malgré tous ses défauts à tirer des enseignements. Pour des raisons multiples, nous nous sommes demandés s’il était possible d’obtenir une information plus riche à moindre coût, alliant la richesse du verbatim à la précision du chiffre. Plus de clous, plus d’œillères, mais un questionnement complètement ouvert, sans relance autre que celle d’encourager le client à s’exprimer et préciser sa pensée, une découverte libre et buissonnière dûment enregistrée en vidéo. Seul écart de précaution à cette non-directivité : une relance « joker » en fin de session pour presser l’interviewé dans ses derniers retranchements en cas d’omission flagrante. Le matériau brut est ensuite retranscrit puis codé en respectant deux principes fondamentaux : 1/ utiliser la même grille que le quanti (« l’arbre »), quitte à l’enrichir en cas de besoin; 2/ coder la polarité du verbatim en positif, neutre ou négatif. A priori, on peut supposer que la fréquence et la polarité des verbatim « quali » reflètent le poids des items et les notes moyennes obtenues en quanti, au moins pour les grandes dimensions d’évaluation du produit. C’est le cas si l’on prend la précaution de travailler avec relance, mais hors redondance. Pour en savoir plus sur la recette, contacter le chef.
vendredi 13 juin 2008
Les yeux ouverts
En classification, il est parfois recommandé de garder la main lorsque le nombre de variables le permet, plutôt que de laisser un programme statistique, quel qu’il soit, en faire à sa guise. En voici un exemple tiré d’une étude d’image de biens durables.
Pour ce type d’études, on dispose souvent pour chaque marque étudiée de quatre variables de base : une note d’image, un score de notoriété, la possession ou non de la marque et les intentions des clients à son égard. Supposons que l’on veuille répartir les clients en trois groupes : favorables, perméables et réfractaires à une marque donnée. Plutôt que soumettre les quatre variables à une analyse de classification automatique (K-Means, Nuées Dynamiques, Classification neuronale etc.) en fixant à trois le nombre de groupes à extraire, voici une méthode très simple qui ne m’a jamais déçu. Je commence par réaliser une Analyse en Composantes Multiples des quatre variables que j’aurai pris soin de discrétiser si nécessaire (la note d’image, en particulier). Je veille ici à ce que chaque modalité des variables soit suffisamment représentée ; dans le cas contraire, j’opére les regroupements qui s’imposent. Il suffit ensuite de faire un graphique avec les deux premiers axes de l'ACM et d’utiliser ce graphique pour définir des règles d’affectation pour les trois groupes. Si les variables sont codées dans le même sens (modalité élevée = bonne image, bonne notoriété, possession et intention), la règle d’affectation suivante marche toujours bien :
Réfractaires : X<0
Perméables : X>0 et Y<0
Favorables : X>0 et Y≥0
où X et Y dénotent les 2 premiers axes factoriels.
Pour ce type d’études, on dispose souvent pour chaque marque étudiée de quatre variables de base : une note d’image, un score de notoriété, la possession ou non de la marque et les intentions des clients à son égard. Supposons que l’on veuille répartir les clients en trois groupes : favorables, perméables et réfractaires à une marque donnée. Plutôt que soumettre les quatre variables à une analyse de classification automatique (K-Means, Nuées Dynamiques, Classification neuronale etc.) en fixant à trois le nombre de groupes à extraire, voici une méthode très simple qui ne m’a jamais déçu. Je commence par réaliser une Analyse en Composantes Multiples des quatre variables que j’aurai pris soin de discrétiser si nécessaire (la note d’image, en particulier). Je veille ici à ce que chaque modalité des variables soit suffisamment représentée ; dans le cas contraire, j’opére les regroupements qui s’imposent. Il suffit ensuite de faire un graphique avec les deux premiers axes de l'ACM et d’utiliser ce graphique pour définir des règles d’affectation pour les trois groupes. Si les variables sont codées dans le même sens (modalité élevée = bonne image, bonne notoriété, possession et intention), la règle d’affectation suivante marche toujours bien :
Réfractaires : X<0
Perméables : X>0 et Y<0
Favorables : X>0 et Y≥0
où X et Y dénotent les 2 premiers axes factoriels.
La loi du moindre effort
On m’a un jour demandé s’il était possible, dans une carte de positionnement issue d’une AFC, de répercuter sur les variables initiales le déplacement d’un point sur la carte. Sachant qu'il est plus facile d'exprimer un objectif de positionnement à partir d'une carte qu'à partir d'items corrélés, cette question est intéressante. C’est possible, et cela d’autant plus qu’il y a une infinité de solutions. Je vous en propose une qui a le mérite d’être basée sur un principe qui m’est cher, celui de la loi du moindre effort. Je l’utilise parfois en me gardant d’expliquer de quel chapeau je sors ce lapin.
Soit :
N(j) la note du point qui se déplace sur l’item j.
Y(jk) le score factoriel de l'item j sur l'axe k (carte obtenue par AFC des notes).
λ(k) la valeur propre de l'axe k.
Δ(j) la progression requise sur l'item j par le point qui se déplace pour atteindre le positionnement souhaité (ce sont les inconnues).
X(k) le score factoriel actuel du point qui se déplace sur l'axe k (son positionnement actuel).
X*(k) le score factoriel recherché sur l'axe k, c'est-à-dire l'objectif de positionnement.
Le score factoriel recherché est donné par la formule de transition de l'AFC :
X*k = [1/√λ(k)]×ΣY(jk)×[(N(j)+Δ(j) )/[ΣN(j)+ΣΔ(j)]
Le problème d'optimisation consiste à trouver les Δ(j) tels que X(k) → X*(k) en minimisant le déplacement sur les notes initiales. En d'autres termes, on veut atteindre l'objectif de positionnement à moindre coût. J’utilise la fonction objective suivante :
Minimiser Σ[X*(k)-X(k)]puissance 2 + Σ absolu[Δ(j)].
Cette optimisation se fait très facilement avec le solveur d’Excel. A l'optimum, le premier terme tend vers 0, on minimise donc bien le déplacement exprimé en termes d'items (le second terme).
Soit :
N(j) la note du point qui se déplace sur l’item j.
Y(jk) le score factoriel de l'item j sur l'axe k (carte obtenue par AFC des notes).
λ(k) la valeur propre de l'axe k.
Δ(j) la progression requise sur l'item j par le point qui se déplace pour atteindre le positionnement souhaité (ce sont les inconnues).
X(k) le score factoriel actuel du point qui se déplace sur l'axe k (son positionnement actuel).
X*(k) le score factoriel recherché sur l'axe k, c'est-à-dire l'objectif de positionnement.
Le score factoriel recherché est donné par la formule de transition de l'AFC :
X*k = [1/√λ(k)]×ΣY(jk)×[(N(j)+Δ(j) )/[ΣN(j)+ΣΔ(j)]
Le problème d'optimisation consiste à trouver les Δ(j) tels que X(k) → X*(k) en minimisant le déplacement sur les notes initiales. En d'autres termes, on veut atteindre l'objectif de positionnement à moindre coût. J’utilise la fonction objective suivante :
Minimiser Σ[X*(k)-X(k)]puissance 2 + Σ absolu[Δ(j)].
Cette optimisation se fait très facilement avec le solveur d’Excel. A l'optimum, le premier terme tend vers 0, on minimise donc bien le déplacement exprimé en termes d'items (le second terme).
Pourquoi faire compliqué ?
Pourquoi faire compliqué quand on peut faire simple ?
On m’a récemment posé le problème suivant à l’occasion d’un test produit : identifier parmi une cinquantaine d’items les leviers de la qualité. C’est un sujet classique dans lequel on dispose d’une mesure globale de qualité et de mesures dites « détaillées » (les quelques cinquante items ») sur un ensemble de N produits répartis en deux univers (leaders/challengers). L’échantillon de clients est également divisé en deux populations : consommateurs réguliers de produits leaders et consommateurs réguliers de produits challengers. On s’intéresse ici non pas aux produits ou aux clients en eux-mêmes, mais aux univers dont ils font partie, avec pour objectif de réduire la batterie d’items à sa plus simple expression (pour injection dans les questionnaires futurs, par exemple).
La taille réduite de l’échantillon et le nombre élevé d’items proscrivant le recours à des techniques de régression (même la PLS « craque »), j’ai préféré travailler item par item en calculant par analyse de variance un indice de supériorité qui servit ensuite à hiérarchiser les items en ordre décroissant de supériorité. Le croisement des deux univers (univers de produits, univers de clients) produit quatre moyennes à décomposer :
Produits challengers jugés par des clients challengers : a + b(i) + c + d + e
Produits leaders jugés par des clients leaders : a + b(i) – c – d + e
Produits challengers jugés par des clients leaders : a + b(i) + c – d – e + e(i)
Produits leaders jugés par des clients challengers : a + b(i) – c + d – e + e(i)
Ici, l’indice « i » dénote les produits. Les paramètres sont les suivants :
a = note de base.
b(i) = attrait du produit « i » dans son univers. On impose que la somme des b(i) par univers soit nulle.
c = propension des univers de produits à être plus ou moins bien jugés.
d = propension des clientèles à noter plus ou moins haut.
e = prime/pénalité moyenne lorsque le produit est jugé dans son univers ou dans l’autre univers.
e(i) = aptitude du produit à résister au changement d’univers.
Ces paramètres sont calculés par analyse de variance item par item, à partir des notations des clients. La seule petite subtilité réside dans le codage des différents effets, mais rien de sorcier. Il se trouve que la quantité 4e-2c constitue un indice particulièrement simple et plausible de la supériorité des leaders. Il ne reste plus qu’à identifier le nombre d’items à retenir dans la batterie réduite d’items. On aura deviné à ce stade que la moyenne des "n" premiers items (classés en ordre décroissant de leur indice de supériorité) pondérée par leur indice de supériorité doit par construction être proche de la note globale de qualité donnée par le client. Il suffit alors de calculer cette moyenne en faisant varier "n" de 1 au nombre maximum d’items, et de retenir comme nombre d’item optimal celui au-dessus duquel la qualité de l’ajustement ne progresse plus.
On m’a récemment posé le problème suivant à l’occasion d’un test produit : identifier parmi une cinquantaine d’items les leviers de la qualité. C’est un sujet classique dans lequel on dispose d’une mesure globale de qualité et de mesures dites « détaillées » (les quelques cinquante items ») sur un ensemble de N produits répartis en deux univers (leaders/challengers). L’échantillon de clients est également divisé en deux populations : consommateurs réguliers de produits leaders et consommateurs réguliers de produits challengers. On s’intéresse ici non pas aux produits ou aux clients en eux-mêmes, mais aux univers dont ils font partie, avec pour objectif de réduire la batterie d’items à sa plus simple expression (pour injection dans les questionnaires futurs, par exemple).
La taille réduite de l’échantillon et le nombre élevé d’items proscrivant le recours à des techniques de régression (même la PLS « craque »), j’ai préféré travailler item par item en calculant par analyse de variance un indice de supériorité qui servit ensuite à hiérarchiser les items en ordre décroissant de supériorité. Le croisement des deux univers (univers de produits, univers de clients) produit quatre moyennes à décomposer :
Produits challengers jugés par des clients challengers : a + b(i) + c + d + e
Produits leaders jugés par des clients leaders : a + b(i) – c – d + e
Produits challengers jugés par des clients leaders : a + b(i) + c – d – e + e(i)
Produits leaders jugés par des clients challengers : a + b(i) – c + d – e + e(i)
Ici, l’indice « i » dénote les produits. Les paramètres sont les suivants :
a = note de base.
b(i) = attrait du produit « i » dans son univers. On impose que la somme des b(i) par univers soit nulle.
c = propension des univers de produits à être plus ou moins bien jugés.
d = propension des clientèles à noter plus ou moins haut.
e = prime/pénalité moyenne lorsque le produit est jugé dans son univers ou dans l’autre univers.
e(i) = aptitude du produit à résister au changement d’univers.
Ces paramètres sont calculés par analyse de variance item par item, à partir des notations des clients. La seule petite subtilité réside dans le codage des différents effets, mais rien de sorcier. Il se trouve que la quantité 4e-2c constitue un indice particulièrement simple et plausible de la supériorité des leaders. Il ne reste plus qu’à identifier le nombre d’items à retenir dans la batterie réduite d’items. On aura deviné à ce stade que la moyenne des "n" premiers items (classés en ordre décroissant de leur indice de supériorité) pondérée par leur indice de supériorité doit par construction être proche de la note globale de qualité donnée par le client. Il suffit alors de calculer cette moyenne en faisant varier "n" de 1 au nombre maximum d’items, et de retenir comme nombre d’item optimal celui au-dessus duquel la qualité de l’ajustement ne progresse plus.
La méthode du mois
Comment reconstituer un saucisson que l'on a découpé en rondelles ? Pour ma part, j'utilise l'analyse causale ("Path analysis") du logiciel Xlstat. On définit son modèle graphiquement (qui cause quoi), puis on le teste. Au final, on obtient une vue globale de tous les éléments du phénomène (ex.: image, satisfaction, fidélité, qualité, notoriété, etc.) que l'on a mesuré. Simple et très "parlant".
jeudi 12 juin 2008
Une question ? Un devis ?
Contactez Pierre Windal par mail (pierre@windal-conseil.com) ou téléphone (01 3466 3200) pour une réponse rapide.
Inscription à :
Commentaires (Atom)
Notre expérience
Plus de 600 études en 20 ans. Loin de tout savoir, mais pas né de la dernière pluie ...
Ne fait pas ... fait ...
On ne fait pas ...
... De terrain.
... D'études qualitatives.
... De recherche documentaire.
... De veille technologique.
On fait ...
... Du traitement de données quantitatives.
... De l'analyse, de l'interprétation, des synthèses.
... De la modélisation.
... Du reporting on-line.
... De la formation.
... Du développement logiciel.
... Du conseil en marketing et traitement de données.
... De terrain.
... D'études qualitatives.
... De recherche documentaire.
... De veille technologique.
On fait ...
... Du traitement de données quantitatives.
... De l'analyse, de l'interprétation, des synthèses.
... De la modélisation.
... Du reporting on-line.
... De la formation.
... Du développement logiciel.
... Du conseil en marketing et traitement de données.
Moyens
... Une double formation, littéraire et scientifique (PhD en Business Administration de l'Université de Colombie Britannique).
... Des logiciels de traitement de données standards (S-Plus, StatGraphics, Xlstat, Daisie, EQS ).
... Un logiciel spécialisé dans le traitement des données d'enquête et d'analyse multivariée, développé en interne (Mensor) et interfacé avec Excel, Eole, StatGraphics, Cosi et les bases de données ODBC.
... La maîtrise d'un language de programmation (APL), pour les demandes spécifiques, et le reporting on-line (APL+Web Components, ASP.NET)
... Des partenaires méthodologiques "pointus" en cas de besoin.
... Des logiciels de traitement de données standards (S-Plus, StatGraphics, Xlstat, Daisie, EQS ).
... Un logiciel spécialisé dans le traitement des données d'enquête et d'analyse multivariée, développé en interne (Mensor) et interfacé avec Excel, Eole, StatGraphics, Cosi et les bases de données ODBC.
... La maîtrise d'un language de programmation (APL), pour les demandes spécifiques, et le reporting on-line (APL+Web Components, ASP.NET)
... Des partenaires méthodologiques "pointus" en cas de besoin.
Des gens qui connaissent notre travail
- Gordon Zola, éditeur (eric.mogis@wanadoo.fr)
- Daniel Bachelet, consultant, ancien directeur du marketing de PSA (dbachele@club-internet.fr)
- Pierre Desmet, professeur à l'Essec (desmet@essec.fr)