Analysis/docs/USER_GUIDE.md
2026-01-11 22:56:02 +01:00

10 KiB
Raw Permalink Blame History

Guide Utilisateur - Application d'Analyse de Données

📊 Bienvenue dans l'application d'analyse de données statistiques. Ce guide vous accompagne pas à pas dans l'utilisation des fonctionnalités principales.


🚀 Démarrage Rapide

1. Importer vos données

  • Formats supportés : CSV, Excel
  • Cliquez sur "Upload File" pour charger votre dataset
  • Les données sont automatiquement détectées et typées (numérique, catégorique, date)

2. Explorer vos données

  • Utilisez la table intelligente pour visualiser vos données
  • Les outliers potentiels sont indiqués par des cercles colorés :
    • 🔴 Rouge : Outlier univarié (valeur extrême dans une colonne)
    • 🟣 Violet : Outlier multivarié (anomalie globale)

3. Lancer une analyse

Cliquez sur le bouton "Analyse" dans la barre latérale pour accéder aux outils d'analyse.


📈 Fonctionnalités Principales

1. Matrice de Corrélation 🔗

Objectif : Comprendre les relations entre vos variables numériques.

Comment l'utiliser ?

  1. Accédez à l'onglet "Corrélation"

  2. Choisissez la méthode :

    • Pearson : Relations linéaires (données normales)
    • Spearman : Relations monotones (données non-paramétriques)
    • Kendall : Similarité de rang (petits échantillons)
  3. Interprétez la heatmap :

    • Rouge foncé : Forte corrélation positive (0.7 à 1.0)
    • Bleu foncé : Forte corrélation négative (-0.7 à -1.0)
    • Bordure rouge ⚠️ : Multicolinéarité détectée (≥0.7)
  4. Filtres avancés :

    • Seuil minimum : Affichez seulement les corrélations > X
    • Significatif seulement : p-value < 0.05

⚠️ Alertes Multicolinéarité

Si vous voyez une bordure rouge entre deux prédicteurs :

  • Ne les utilisez pas ensemble dans une régression
  • Choisissez la variable la plus corrélée avec votre cible
  • Exemple : Si Taille et Poids sont corrélés à 0.85, gardez-en un seul

Export

Cliquez sur "Exporter CSV" pour télécharger les résultats.


2. Régression Statistique 📉

Objectif : Modéliser et prédire une variable cible.

Étape 1 : Configuration du modèle

Dans le panneau de configuration avancée :

1. Choisissez votre type de modèle :

  • Linéaire : Relations linéaires simples
  • Logistique : Cible binaire (oui/non, 0/1)
  • Polynomial : Relations courbes (degrés 2-5)
  • Exponentielle : Croissance/décroissance exponentielle

2. Sélectionnez votre Variable Cible (Y) :

  • La variable que vous voulez expliquer/prédire
  • Pour linéaire/polynomial/exponentielle : doit être numérique continue
  • Pour logistique : doit être catégorique ou binaire

3. Choisissez vos Prédicteurs (X) :

  • Les variables qui expliquent Y
  • L'application recommande automatiquement les 5 meilleures variables basées sur leur importance
  • Désélectionnez les variables avec multicolinéarité

Étape 2 : Options avancées

Pour Polynomial :

  • Degré du polynôme : 2 (quadratique) à 5
    • degré = + complexité (risque de sur-apprentissage)

Pour Linéaire/Polynomial :

  • Inclure interactions : Crée des termes croisés (x1*x2)
  • Utile pour capturer les effets combinés de variables

Étape 3 : Lancer l'analyse

Cliquez sur "Lancer l'Analyse" et attendez les résultats.


📊 Interpréter les Résultats de Régression

1. Métriques de Qualité

Métrique Description Valeur Idéale
R-Squared Proportion de variance expliquée 0.7 - 1.0
Adj. R-Squared R² ajusté pour le nombre de variables Proche de R²
AIC / BIC Critères d'information (plus bas = mieux) Comparer modèles

R-Squared Guide

  • 0.90 - 1.00 : Excellent ajustement
  • 0.70 - 0.90 : Bon ajustement
  • 0.50 - 0.70 : Ajustement modéré
  • < 0.50 : Faible ajustement

2. Coefficients du Modèle

Le tableau des coefficients indique l'impact de chaque variable :

Colonne Signification
Variable Nom de la variable ou constante
Coefficient Impact moyen sur Y (si X augmente de 1)
P-Value Significativité statistique
Fiabilité FIABLE si p < 0.05

Comment lire les coefficients ?

Exemple : Y = 10 + 2.5*X1 - 1.3*X2

  • Constante (10) : Valeur de Y quand tous les X = 0
  • X1 (+2.5) : Si X1 augmente de 1, Y augmente de 2.5
  • X2 (-1.3) : Si X2 augmente de 1, Y diminue de 1.3

⚠️ Important : Un coefficient n'est fiable que si p-value < 0.05 (FIABLE)


3. Équation du Modèle

L'application génère automatiquement l'équation dans 3 formats :

LaTeX (Mathématique)

Pour vos rapports et publications :

y = 1.234567 + 2.345678x_{0} + 3.456789x_{0}^{2}

Python (Code)

Pour implémenter le modèle en Python :

y = 1.234567 + 2.345678*x0 + 3.456789*x0**2

Excel (Formule)

Pour utiliser dans Excel/Google Sheets :

=1.234567 + 2.345678*A1 + 3.456789*A1^2

Bouton "Copier" : Copiez l'équation directement dans votre presse-papier !


4. Graphiques de Diagnostic

Fit Plot (Régression univariée)

  • Points gris : Vos données réelles
  • Ligne bleue : Le modèle ajusté
  • Vérifiez que la ligne suit bien la tendance des points

Partial Regression Plot (Régression multivariée)

  • Montre l'effet isolé de chaque variable
  • Contrôle l'effet des autres variables
  • La pente = coefficient du modèle
  • Utilisez le sélecteur pour changer de variable

Parity Plot (Validation)

  • Diagonale rouge : Prédictions parfaites (Y = X)
  • Points violets : Vos observations
  • Plus les points sont proches de la diagonale = meilleur modèle
  • Écart à la diagonale = erreur de prédiction

🔍 Détection et Gestion des Outliers

Types d'Outliers

1. Outliers Univariés (IQR)

Détection basée sur l'écart interquartile :

  • Calcul : Q1 - 1.5×IQR (bas) / Q3 + 1.5×IQR (haut)
  • Indicateur : 🔴 Cercle rouge
  • Action : Vérifiez la valeur, corrigez ou excluez

2. Outliers Multivariés (Isolation Forest)

Détection basée sur les combinaisons de variables :

  • Algorithme : Isolation Forest
  • Indicateur : 🟣 Cercle violet
  • Action : Anomalie globale à investiguer

Processus d'Exclusion

  1. Identifiez les outliers dans la table
  2. Survolez pour voir le détail (raison)
  3. Cliquez sur l'outlier pour le marquer
  4. Réexécutez l'analyse sans ces points

Note : Les outliers exclus sont mémorisés et ne réapparaissent pas.


💡 Bonnes Pratiques

Avant la Régression

TOUJOURS vérifier la matrice de corrélation Éviter la multicolinéarité (corrélations ≥ 0.7 entre prédicteurs) Choisir des prédicteurs corrélés avec la cible Exclure les outliers extrêmes

Pendant l'Analyse

Commencer par un modèle linéaire simple Augmenter la complexité progressivement (polynomial, interactions) Surveiller le R² ajusté (il diminue si variables inutiles) Vérifier les p-values (< 0.05 = fiable)

Après l'Analyse

Valider avec le Parity Plot (points près de la diagonale) Interpréter les coefficients (sens et magnitude) Exporter l'équation pour utilisation future Documenter les décisions (variables exclues, outliers retirés)


🎯 Cas d'Usage

Exemple 1 : Prédire le Prix Immobiliers

Données : Prix, Surface, Chambres, Quartier, Année

  1. Corrélation : Prix vs Surface (forte corrélation)
  2. Régression linéaire :
    • Y = Prix
    • X = Surface, Chambres
    • Équation : Prix = 50000 + 2500*Surface + 15000*Chambres
  3. Utilisation : Prédire le prix d'un appartement de 60m² avec 2 chambres
    • Prix = 50000 + 2500*60 + 15000*2 = 215000€

Exemple 2 : Probabilité de Réclamation

Données : Âge, Montant, Historique, Réclamation (oui/non)

  1. Régression logistique :
    • Y = Réclamation (0/1)
    • X = Âge, Montant, Historique
  2. Résultat : Probabilité de réclamation = f(Âge, Montant, Historique)

Exemple 3 : Relation Courbe (Ventes vs Publicité)

Données : Ventes, Budget_Pub, Concurrence

  1. Corrélation : Forte mais non-linéaire
  2. Régression polynomial (degré 2) :
    • Y = Ventes
    • X = Budget_Pub
    • Équation : Ventes = 1000 + 5*Budget - 0.01*Budget²
  3. Interprétation : Rendements décroissants après un certain budget

Questions Fréquentes

Mon R² est faible (< 0.5). Que faire ?

  • Vérifiez : Avez-vous les bons prédicteurs ?
  • Testez : Ajoutez des variables ou essayez polynomial
  • Nettoyez : Supprimez les outliers
  • Acceptez : Le modèle n'explique peut-être pas tout (variables manquantes)

Une variable a une p-value > 0.05. Je la garde ?

Non en général :

  • Le coefficient n'est pas statistiquement significatif
  • Le modèle est plus robuste sans elle
  • Exception : Avis d'expert justifiant son importance

Combien de prédicteurs choisir ?

  • Règle : 1 prédicteur pour 10-20 observations
  • Maximum : n/10 (n = taille échantillon)
  • Qualité > Quantité : Préférez 5 variables fiables à 20 variables instables

Quand utiliser polynomial vs linéaire ?

  • Linéaire : Relation droite (premier choix)
  • Polynomial : Relation courbe évidente sur le scatter plot
  • Attention : Degré trop élevé = sur-apprentissage

📞 Support et Ressources

Documentation Détaillée

  • 📊 Corrélation : Guide complet des coefficients de corrélation
  • 📈 Régression : Modèles, interprétation, équations
  • 🔍 Outliers : Méthodes de détection et gestion

Glossaire

  • Corrélation : Force et direction d'une relation entre deux variables
  • Multicolinéarité : Forte corrélation entre prédicteurs (problématique)
  • P-value : Probabilité que le résultat soit dû au hasard (< 0.05 = significatif)
  • : Proportion de variance expliquée par le modèle (0 à 1)
  • Outlier : Observation anormale qui s'écarte du reste des données
  • Isolation Forest : Algorithme de détection d'anomalies multivariées
  • IQR : Interquartile Range (Q3 - Q1), utilisé pour détecter les extrêmes

Version : 1.0 Dernière mise à jour : Janvier 2026 Plateforme : Application Web d'Analyse de Données

🎓 Bonnes analyses !