Archives

N'hésitez pas à chiner dans les archives, j'y consigne mes recettes.

lundi 16 juin 2008

Le bootstrap tronqué

Il n’existe pas, à ma connaissance, de méthode statistique de régression linéaire se donnant comme objectif prioritaire de satisfaire une contrainte de signe. Les régressions PLS et Ridge s’attaquent au problème de la multicolinéarité, mais rien dans leur conception ne garantit que le coefficient de régression d’une variable sera du même signe que son coefficient de corrélation simple avec la variable à expliquer. Le bootstrap tronqué, une méthode ad-hoc de mon cru, permet de satisfaire simplement ce type de contrainte et le fait, semble-t’il, sans nuire à la robustesse des coefficients. Tronquer la distribution est un artifice de calcul, mais c’est un artifice plus naturel et plus robuste que ceux employés par d’autres méthodes. Le principe est le suivant : soit un échantillon X de N valeurs, et f(X) une statistique calculée sur ces valeurs. Dans notre cas, X représente la variable à expliquer et les variables explicatives, f(X) les coefficients de régression. On tire au hasard avec remise K échantillons de N valeurs de l’échantillon initial. Chaque réplication ou « échantillon bootstrap » contient autant de valeurs que l’échantillon de base, ces valeurs étant les mêmes, mais avec des fréquences potentiellement différentes. On calcule ensuite la statistique f(X,b) pour chaque réplication b. A l’issue de ces deux étapes – génération des échantillons, calcul de la statistique f(X,b) - on dispose d’une distribution empirique dont on extrait une moyenne et un intervalle de confiance bootstrap. Dans notre cas, il suffit de calculer cette moyenne, coefficient par coefficient, sur les seuls échantillons où ils respectent la contrainte de signe. A ce stade, on dispose d’un jeu de coefficients qu’il faut soumettre à une dernière petite translation/dilatation pour obtenir une qualité d’ajustement d’autant plus proche de celle de la régression multiple sans contrainte que les coefficients initiaux ne violent pas trop ladite contrainte. Pour en savoir plus, cliquer ici.

Aucun commentaire:

Notre expérience

Plus de 600 études en 20 ans. Loin de tout savoir, mais pas né de la dernière pluie ...

Ne fait pas ... fait ...

On ne fait pas ...
... De terrain.
... D'études qualitatives.
... De recherche documentaire.
... De veille technologique.
On fait ...
... Du traitement de données quantitatives.
... De l'analyse, de l'interprétation, des synthèses.
... De la modélisation.
... Du reporting on-line.
... De la formation.
... Du développement logiciel.
... Du conseil en marketing et traitement de données.

Moyens

... Une double formation, littéraire et scientifique (PhD en Business Administration de l'Université de Colombie Britannique).
... Des logiciels de traitement de données standards (S-Plus, StatGraphics, Xlstat, Daisie, EQS ).
... Un logiciel spécialisé dans le traitement des données d'enquête et d'analyse multivariée, développé en interne (Mensor) et interfacé avec Excel, Eole, StatGraphics, Cosi et les bases de données ODBC.
... La maîtrise d'un language de programmation (APL), pour les demandes spécifiques, et le reporting on-line (APL+Web Components, ASP.NET)
... Des partenaires méthodologiques "pointus" en cas de besoin.

Des gens qui connaissent notre travail

  • Gordon Zola, éditeur (eric.mogis@wanadoo.fr)
  • Daniel Bachelet, consultant, ancien directeur du marketing de PSA (dbachele@club-internet.fr)
  • Pierre Desmet, professeur à l'Essec (desmet@essec.fr)