# Guide Utilisateur - Application d'Analyse de Données 📊 **Bienvenue** dans l'application d'analyse de données statistiques. Ce guide vous accompagne pas à pas dans l'utilisation des fonctionnalités principales. --- ## 🚀 Démarrage Rapide ### 1. Importer vos données - **Formats supportés** : CSV, Excel - **Cliquez sur** "Upload File" pour charger votre dataset - Les données sont automatiquement détectées et typées (numérique, catégorique, date) ### 2. Explorer vos données - Utilisez la **table intelligente** pour visualiser vos données - Les outliers potentiels sont indiqués par des **cercles colorés** : - 🔴 **Rouge** : Outlier univarié (valeur extrême dans une colonne) - 🟣 **Violet** : Outlier multivarié (anomalie globale) ### 3. Lancer une analyse Cliquez sur le bouton **"Analyse"** dans la barre latérale pour accéder aux outils d'analyse. --- ## 📈 Fonctionnalités Principales ### 1. Matrice de Corrélation 🔗 **Objectif** : Comprendre les relations entre vos variables numériques. #### Comment l'utiliser ? 1. **Accédez à l'onglet "Corrélation"** 2. **Choisissez la méthode** : - **Pearson** : Relations linéaires (données normales) - **Spearman** : Relations monotones (données non-paramétriques) - **Kendall** : Similarité de rang (petits échantillons) 3. **Interprétez la heatmap** : - **Rouge foncé** : Forte corrélation positive (0.7 à 1.0) - **Bleu foncé** : Forte corrélation négative (-0.7 à -1.0) - **Bordure rouge** ⚠️ : Multicolinéarité détectée (≥0.7) 4. **Filtres avancés** : - **Seuil minimum** : Affichez seulement les corrélations > X - **Significatif seulement** : p-value < 0.05 #### ⚠️ Alertes Multicolinéarité Si vous voyez une **bordure rouge** entre deux prédicteurs : - **Ne les utilisez pas ensemble** dans une régression - Choisissez la variable la plus corrélée avec votre cible - Exemple : Si `Taille` et `Poids` sont corrélés à 0.85, gardez-en un seul #### Export Cliquez sur **"Exporter CSV"** pour télécharger les résultats. --- ### 2. Régression Statistique 📉 **Objectif** : Modéliser et prédire une variable cible. #### Étape 1 : Configuration du modèle Dans le panneau de configuration avancée : **1. Choisissez votre type de modèle** : - **Linéaire** : Relations linéaires simples - **Logistique** : Cible binaire (oui/non, 0/1) - **Polynomial** : Relations courbes (degrés 2-5) - **Exponentielle** : Croissance/décroissance exponentielle **2. Sélectionnez votre Variable Cible (Y)** : - La variable que vous voulez expliquer/prédire - Pour linéaire/polynomial/exponentielle : doit être **numérique continue** - Pour logistique : doit être **catégorique ou binaire** **3. Choisissez vos Prédicteurs (X)** : - Les variables qui expliquent Y - L'application recommande automatiquement les **5 meilleures variables** basées sur leur importance - Désélectionnez les variables avec multicolinéarité #### Étape 2 : Options avancées **Pour Polynomial** : - **Degré du polynôme** : 2 (quadratique) à 5 - + degré = + complexité (risque de sur-apprentissage) **Pour Linéaire/Polynomial** : - **Inclure interactions** : Crée des termes croisés (x1*x2) - Utile pour capturer les effets combinés de variables #### Étape 3 : Lancer l'analyse Cliquez sur **"Lancer l'Analyse"** et attendez les résultats. --- ## 📊 Interpréter les Résultats de Régression ### 1. Métriques de Qualité | Métrique | Description | Valeur Idéale | |----------|-------------|---------------| | **R-Squared** | Proportion de variance expliquée | 0.7 - 1.0 | | **Adj. R-Squared** | R² ajusté pour le nombre de variables | Proche de R² | | **AIC / BIC** | Critères d'information (plus bas = mieux) | Comparer modèles | #### R-Squared Guide - **0.90 - 1.00** : Excellent ajustement - **0.70 - 0.90** : Bon ajustement - **0.50 - 0.70** : Ajustement modéré - **< 0.50** : Faible ajustement --- ### 2. Coefficients du Modèle Le tableau des coefficients indique l'impact de chaque variable : | Colonne | Signification | |---------|---------------| | **Variable** | Nom de la variable ou constante | | **Coefficient** | Impact moyen sur Y (si X augmente de 1) | | **P-Value** | Significativité statistique | | **Fiabilité** | FIABLE si p < 0.05 | #### Comment lire les coefficients ? **Exemple** : `Y = 10 + 2.5*X1 - 1.3*X2` - **Constante (10)** : Valeur de Y quand tous les X = 0 - **X1 (+2.5)** : Si X1 augmente de 1, Y augmente de 2.5 - **X2 (-1.3)** : Si X2 augmente de 1, Y diminue de 1.3 ⚠️ **Important** : Un coefficient n'est fiable que si **p-value < 0.05** (FIABLE) --- ### 3. Équation du Modèle L'application génère automatiquement l'équation dans 3 formats : #### LaTeX (Mathématique) Pour vos rapports et publications : ``` y = 1.234567 + 2.345678x_{0} + 3.456789x_{0}^{2} ``` #### Python (Code) Pour implémenter le modèle en Python : ```python y = 1.234567 + 2.345678*x0 + 3.456789*x0**2 ``` #### Excel (Formule) Pour utiliser dans Excel/Google Sheets : ``` =1.234567 + 2.345678*A1 + 3.456789*A1^2 ``` **Bouton "Copier"** : Copiez l'équation directement dans votre presse-papier ! --- ### 4. Graphiques de Diagnostic #### Fit Plot (Régression univariée) - **Points gris** : Vos données réelles - **Ligne bleue** : Le modèle ajusté - Vérifiez que la ligne suit bien la tendance des points #### Partial Regression Plot (Régression multivariée) - Montre l'**effet isolé** de chaque variable - Contrôle l'effet des autres variables - La **pente** = coefficient du modèle - Utilisez le sélecteur pour changer de variable #### Parity Plot (Validation) - **Diagonale rouge** : Prédictions parfaites (Y = X) - **Points violets** : Vos observations - Plus les points sont proches de la diagonale = meilleur modèle - **Écart à la diagonale** = erreur de prédiction --- ## 🔍 Détection et Gestion des Outliers ### Types d'Outliers #### 1. Outliers Univariés (IQR) Détection basée sur l'écart interquartile : - **Calcul** : Q1 - 1.5×IQR (bas) / Q3 + 1.5×IQR (haut) - **Indicateur** : 🔴 Cercle rouge - **Action** : Vérifiez la valeur, corrigez ou excluez #### 2. Outliers Multivariés (Isolation Forest) Détection basée sur les combinaisons de variables : - **Algorithme** : Isolation Forest - **Indicateur** : 🟣 Cercle violet - **Action** : Anomalie globale à investiguer ### Processus d'Exclusion 1. **Identifiez** les outliers dans la table 2. **Survolez** pour voir le détail (raison) 3. **Cliquez sur l'outlier** pour le marquer 4. **Réexécutez** l'analyse sans ces points **Note** : Les outliers exclus sont mémorisés et ne réapparaissent pas. --- ## 💡 Bonnes Pratiques ### Avant la Régression ✅ **TOUJOURS** vérifier la matrice de corrélation ✅ **Éviter** la multicolinéarité (corrélations ≥ 0.7 entre prédicteurs) ✅ **Choisir** des prédicteurs corrélés avec la cible ✅ **Exclure** les outliers extrêmes ### Pendant l'Analyse ✅ **Commencer** par un modèle linéaire simple ✅ **Augmenter** la complexité progressivement (polynomial, interactions) ✅ **Surveiller** le R² ajusté (il diminue si variables inutiles) ✅ **Vérifier** les p-values (< 0.05 = fiable) ### Après l'Analyse ✅ **Valider** avec le Parity Plot (points près de la diagonale) ✅ **Interpréter** les coefficients (sens et magnitude) ✅ **Exporter** l'équation pour utilisation future ✅ **Documenter** les décisions (variables exclues, outliers retirés) --- ## 🎯 Cas d'Usage ### Exemple 1 : Prédire le Prix Immobiliers **Données** : Prix, Surface, Chambres, Quartier, Année 1. **Corrélation** : Prix vs Surface (forte corrélation) 2. **Régression linéaire** : - Y = Prix - X = Surface, Chambres - Équation : `Prix = 50000 + 2500*Surface + 15000*Chambres` 3. **Utilisation** : Prédire le prix d'un appartement de 60m² avec 2 chambres - `Prix = 50000 + 2500*60 + 15000*2 = 215000€` ### Exemple 2 : Probabilité de Réclamation **Données** : Âge, Montant, Historique, Réclamation (oui/non) 1. **Régression logistique** : - Y = Réclamation (0/1) - X = Âge, Montant, Historique 2. **Résultat** : Probabilité de réclamation = f(Âge, Montant, Historique) ### Exemple 3 : Relation Courbe (Ventes vs Publicité) **Données** : Ventes, Budget_Pub, Concurrence 1. **Corrélation** : Forte mais non-linéaire 2. **Régression polynomial (degré 2)** : - Y = Ventes - X = Budget_Pub - Équation : `Ventes = 1000 + 5*Budget - 0.01*Budget²` 3. **Interprétation** : Rendements décroissants après un certain budget --- ## ❓ Questions Fréquentes ### Mon R² est faible (< 0.5). Que faire ? - **Vérifiez** : Avez-vous les bons prédicteurs ? - **Testez** : Ajoutez des variables ou essayez polynomial - **Nettoyez** : Supprimez les outliers - **Acceptez** : Le modèle n'explique peut-être pas tout (variables manquantes) ### Une variable a une p-value > 0.05. Je la garde ? **Non** en général : - Le coefficient n'est pas statistiquement significatif - Le modèle est plus robuste sans elle - Exception : Avis d'expert justifiant son importance ### Combien de prédicteurs choisir ? - **Règle** : 1 prédicteur pour 10-20 observations - **Maximum** : n/10 (n = taille échantillon) - **Qualité > Quantité** : Préférez 5 variables fiables à 20 variables instables ### Quand utiliser polynomial vs linéaire ? - **Linéaire** : Relation droite (premier choix) - **Polynomial** : Relation courbe évidente sur le scatter plot - **Attention** : Degré trop élevé = sur-apprentissage --- ## 📞 Support et Ressources ### Documentation Détaillée - 📊 **[Corrélation](CORRELATION_GUIDE.md)** : Guide complet des coefficients de corrélation - 📈 **[Régression](REGRESSION_GUIDE.md)** : Modèles, interprétation, équations - 🔍 **[Outliers](OUTLIER_GUIDE.md)** : Méthodes de détection et gestion ### Glossaire - **Corrélation** : Force et direction d'une relation entre deux variables - **Multicolinéarité** : Forte corrélation entre prédicteurs (problématique) - **P-value** : Probabilité que le résultat soit dû au hasard (< 0.05 = significatif) - **R²** : Proportion de variance expliquée par le modèle (0 à 1) - **Outlier** : Observation anormale qui s'écarte du reste des données - **Isolation Forest** : Algorithme de détection d'anomalies multivariées - **IQR** : Interquartile Range (Q3 - Q1), utilisé pour détecter les extrêmes --- **Version** : 1.0 **Dernière mise à jour** : Janvier 2026 **Plateforme** : Application Web d'Analyse de Données 🎓 **Bonnes analyses !**