10 KiB
Guide Utilisateur - Application d'Analyse de Données
📊 Bienvenue dans l'application d'analyse de données statistiques. Ce guide vous accompagne pas à pas dans l'utilisation des fonctionnalités principales.
🚀 Démarrage Rapide
1. Importer vos données
- Formats supportés : CSV, Excel
- Cliquez sur "Upload File" pour charger votre dataset
- Les données sont automatiquement détectées et typées (numérique, catégorique, date)
2. Explorer vos données
- Utilisez la table intelligente pour visualiser vos données
- Les outliers potentiels sont indiqués par des cercles colorés :
- 🔴 Rouge : Outlier univarié (valeur extrême dans une colonne)
- 🟣 Violet : Outlier multivarié (anomalie globale)
3. Lancer une analyse
Cliquez sur le bouton "Analyse" dans la barre latérale pour accéder aux outils d'analyse.
📈 Fonctionnalités Principales
1. Matrice de Corrélation 🔗
Objectif : Comprendre les relations entre vos variables numériques.
Comment l'utiliser ?
-
Accédez à l'onglet "Corrélation"
-
Choisissez la méthode :
- Pearson : Relations linéaires (données normales)
- Spearman : Relations monotones (données non-paramétriques)
- Kendall : Similarité de rang (petits échantillons)
-
Interprétez la heatmap :
- Rouge foncé : Forte corrélation positive (0.7 à 1.0)
- Bleu foncé : Forte corrélation négative (-0.7 à -1.0)
- Bordure rouge ⚠️ : Multicolinéarité détectée (≥0.7)
-
Filtres avancés :
- Seuil minimum : Affichez seulement les corrélations > X
- Significatif seulement : p-value < 0.05
⚠️ Alertes Multicolinéarité
Si vous voyez une bordure rouge entre deux prédicteurs :
- Ne les utilisez pas ensemble dans une régression
- Choisissez la variable la plus corrélée avec votre cible
- Exemple : Si
TailleetPoidssont corrélés à 0.85, gardez-en un seul
Export
Cliquez sur "Exporter CSV" pour télécharger les résultats.
2. Régression Statistique 📉
Objectif : Modéliser et prédire une variable cible.
Étape 1 : Configuration du modèle
Dans le panneau de configuration avancée :
1. Choisissez votre type de modèle :
- Linéaire : Relations linéaires simples
- Logistique : Cible binaire (oui/non, 0/1)
- Polynomial : Relations courbes (degrés 2-5)
- Exponentielle : Croissance/décroissance exponentielle
2. Sélectionnez votre Variable Cible (Y) :
- La variable que vous voulez expliquer/prédire
- Pour linéaire/polynomial/exponentielle : doit être numérique continue
- Pour logistique : doit être catégorique ou binaire
3. Choisissez vos Prédicteurs (X) :
- Les variables qui expliquent Y
- L'application recommande automatiquement les 5 meilleures variables basées sur leur importance
- Désélectionnez les variables avec multicolinéarité
Étape 2 : Options avancées
Pour Polynomial :
- Degré du polynôme : 2 (quadratique) à 5
-
- degré = + complexité (risque de sur-apprentissage)
Pour Linéaire/Polynomial :
- Inclure interactions : Crée des termes croisés (x1*x2)
- Utile pour capturer les effets combinés de variables
Étape 3 : Lancer l'analyse
Cliquez sur "Lancer l'Analyse" et attendez les résultats.
📊 Interpréter les Résultats de Régression
1. Métriques de Qualité
| Métrique | Description | Valeur Idéale |
|---|---|---|
| R-Squared | Proportion de variance expliquée | 0.7 - 1.0 |
| Adj. R-Squared | R² ajusté pour le nombre de variables | Proche de R² |
| AIC / BIC | Critères d'information (plus bas = mieux) | Comparer modèles |
R-Squared Guide
- 0.90 - 1.00 : Excellent ajustement
- 0.70 - 0.90 : Bon ajustement
- 0.50 - 0.70 : Ajustement modéré
- < 0.50 : Faible ajustement
2. Coefficients du Modèle
Le tableau des coefficients indique l'impact de chaque variable :
| Colonne | Signification |
|---|---|
| Variable | Nom de la variable ou constante |
| Coefficient | Impact moyen sur Y (si X augmente de 1) |
| P-Value | Significativité statistique |
| Fiabilité | FIABLE si p < 0.05 |
Comment lire les coefficients ?
Exemple : Y = 10 + 2.5*X1 - 1.3*X2
- Constante (10) : Valeur de Y quand tous les X = 0
- X1 (+2.5) : Si X1 augmente de 1, Y augmente de 2.5
- X2 (-1.3) : Si X2 augmente de 1, Y diminue de 1.3
⚠️ Important : Un coefficient n'est fiable que si p-value < 0.05 (FIABLE)
3. Équation du Modèle
L'application génère automatiquement l'équation dans 3 formats :
LaTeX (Mathématique)
Pour vos rapports et publications :
y = 1.234567 + 2.345678x_{0} + 3.456789x_{0}^{2}
Python (Code)
Pour implémenter le modèle en Python :
y = 1.234567 + 2.345678*x0 + 3.456789*x0**2
Excel (Formule)
Pour utiliser dans Excel/Google Sheets :
=1.234567 + 2.345678*A1 + 3.456789*A1^2
Bouton "Copier" : Copiez l'équation directement dans votre presse-papier !
4. Graphiques de Diagnostic
Fit Plot (Régression univariée)
- Points gris : Vos données réelles
- Ligne bleue : Le modèle ajusté
- Vérifiez que la ligne suit bien la tendance des points
Partial Regression Plot (Régression multivariée)
- Montre l'effet isolé de chaque variable
- Contrôle l'effet des autres variables
- La pente = coefficient du modèle
- Utilisez le sélecteur pour changer de variable
Parity Plot (Validation)
- Diagonale rouge : Prédictions parfaites (Y = X)
- Points violets : Vos observations
- Plus les points sont proches de la diagonale = meilleur modèle
- Écart à la diagonale = erreur de prédiction
🔍 Détection et Gestion des Outliers
Types d'Outliers
1. Outliers Univariés (IQR)
Détection basée sur l'écart interquartile :
- Calcul : Q1 - 1.5×IQR (bas) / Q3 + 1.5×IQR (haut)
- Indicateur : 🔴 Cercle rouge
- Action : Vérifiez la valeur, corrigez ou excluez
2. Outliers Multivariés (Isolation Forest)
Détection basée sur les combinaisons de variables :
- Algorithme : Isolation Forest
- Indicateur : 🟣 Cercle violet
- Action : Anomalie globale à investiguer
Processus d'Exclusion
- Identifiez les outliers dans la table
- Survolez pour voir le détail (raison)
- Cliquez sur l'outlier pour le marquer
- Réexécutez l'analyse sans ces points
Note : Les outliers exclus sont mémorisés et ne réapparaissent pas.
💡 Bonnes Pratiques
Avant la Régression
✅ TOUJOURS vérifier la matrice de corrélation ✅ Éviter la multicolinéarité (corrélations ≥ 0.7 entre prédicteurs) ✅ Choisir des prédicteurs corrélés avec la cible ✅ Exclure les outliers extrêmes
Pendant l'Analyse
✅ Commencer par un modèle linéaire simple ✅ Augmenter la complexité progressivement (polynomial, interactions) ✅ Surveiller le R² ajusté (il diminue si variables inutiles) ✅ Vérifier les p-values (< 0.05 = fiable)
Après l'Analyse
✅ Valider avec le Parity Plot (points près de la diagonale) ✅ Interpréter les coefficients (sens et magnitude) ✅ Exporter l'équation pour utilisation future ✅ Documenter les décisions (variables exclues, outliers retirés)
🎯 Cas d'Usage
Exemple 1 : Prédire le Prix Immobiliers
Données : Prix, Surface, Chambres, Quartier, Année
- Corrélation : Prix vs Surface (forte corrélation)
- Régression linéaire :
- Y = Prix
- X = Surface, Chambres
- Équation :
Prix = 50000 + 2500*Surface + 15000*Chambres
- Utilisation : Prédire le prix d'un appartement de 60m² avec 2 chambres
Prix = 50000 + 2500*60 + 15000*2 = 215000€
Exemple 2 : Probabilité de Réclamation
Données : Âge, Montant, Historique, Réclamation (oui/non)
- Régression logistique :
- Y = Réclamation (0/1)
- X = Âge, Montant, Historique
- Résultat : Probabilité de réclamation = f(Âge, Montant, Historique)
Exemple 3 : Relation Courbe (Ventes vs Publicité)
Données : Ventes, Budget_Pub, Concurrence
- Corrélation : Forte mais non-linéaire
- Régression polynomial (degré 2) :
- Y = Ventes
- X = Budget_Pub
- Équation :
Ventes = 1000 + 5*Budget - 0.01*Budget²
- Interprétation : Rendements décroissants après un certain budget
❓ Questions Fréquentes
Mon R² est faible (< 0.5). Que faire ?
- Vérifiez : Avez-vous les bons prédicteurs ?
- Testez : Ajoutez des variables ou essayez polynomial
- Nettoyez : Supprimez les outliers
- Acceptez : Le modèle n'explique peut-être pas tout (variables manquantes)
Une variable a une p-value > 0.05. Je la garde ?
Non en général :
- Le coefficient n'est pas statistiquement significatif
- Le modèle est plus robuste sans elle
- Exception : Avis d'expert justifiant son importance
Combien de prédicteurs choisir ?
- Règle : 1 prédicteur pour 10-20 observations
- Maximum : n/10 (n = taille échantillon)
- Qualité > Quantité : Préférez 5 variables fiables à 20 variables instables
Quand utiliser polynomial vs linéaire ?
- Linéaire : Relation droite (premier choix)
- Polynomial : Relation courbe évidente sur le scatter plot
- Attention : Degré trop élevé = sur-apprentissage
📞 Support et Ressources
Documentation Détaillée
- 📊 Corrélation : Guide complet des coefficients de corrélation
- 📈 Régression : Modèles, interprétation, équations
- 🔍 Outliers : Méthodes de détection et gestion
Glossaire
- Corrélation : Force et direction d'une relation entre deux variables
- Multicolinéarité : Forte corrélation entre prédicteurs (problématique)
- P-value : Probabilité que le résultat soit dû au hasard (< 0.05 = significatif)
- R² : Proportion de variance expliquée par le modèle (0 à 1)
- Outlier : Observation anormale qui s'écarte du reste des données
- Isolation Forest : Algorithme de détection d'anomalies multivariées
- IQR : Interquartile Range (Q3 - Q1), utilisé pour détecter les extrêmes
Version : 1.0 Dernière mise à jour : Janvier 2026 Plateforme : Application Web d'Analyse de Données
🎓 Bonnes analyses !