329 lines
10 KiB
Markdown
329 lines
10 KiB
Markdown
# Guide Utilisateur - Application d'Analyse de Données
|
||
|
||
📊 **Bienvenue** dans l'application d'analyse de données statistiques. Ce guide vous accompagne pas à pas dans l'utilisation des fonctionnalités principales.
|
||
|
||
---
|
||
|
||
## 🚀 Démarrage Rapide
|
||
|
||
### 1. Importer vos données
|
||
- **Formats supportés** : CSV, Excel
|
||
- **Cliquez sur** "Upload File" pour charger votre dataset
|
||
- Les données sont automatiquement détectées et typées (numérique, catégorique, date)
|
||
|
||
### 2. Explorer vos données
|
||
- Utilisez la **table intelligente** pour visualiser vos données
|
||
- Les outliers potentiels sont indiqués par des **cercles colorés** :
|
||
- 🔴 **Rouge** : Outlier univarié (valeur extrême dans une colonne)
|
||
- 🟣 **Violet** : Outlier multivarié (anomalie globale)
|
||
|
||
### 3. Lancer une analyse
|
||
Cliquez sur le bouton **"Analyse"** dans la barre latérale pour accéder aux outils d'analyse.
|
||
|
||
---
|
||
|
||
## 📈 Fonctionnalités Principales
|
||
|
||
### 1. Matrice de Corrélation 🔗
|
||
|
||
**Objectif** : Comprendre les relations entre vos variables numériques.
|
||
|
||
#### Comment l'utiliser ?
|
||
|
||
1. **Accédez à l'onglet "Corrélation"**
|
||
2. **Choisissez la méthode** :
|
||
- **Pearson** : Relations linéaires (données normales)
|
||
- **Spearman** : Relations monotones (données non-paramétriques)
|
||
- **Kendall** : Similarité de rang (petits échantillons)
|
||
|
||
3. **Interprétez la heatmap** :
|
||
- **Rouge foncé** : Forte corrélation positive (0.7 à 1.0)
|
||
- **Bleu foncé** : Forte corrélation négative (-0.7 à -1.0)
|
||
- **Bordure rouge** ⚠️ : Multicolinéarité détectée (≥0.7)
|
||
|
||
4. **Filtres avancés** :
|
||
- **Seuil minimum** : Affichez seulement les corrélations > X
|
||
- **Significatif seulement** : p-value < 0.05
|
||
|
||
#### ⚠️ Alertes Multicolinéarité
|
||
Si vous voyez une **bordure rouge** entre deux prédicteurs :
|
||
- **Ne les utilisez pas ensemble** dans une régression
|
||
- Choisissez la variable la plus corrélée avec votre cible
|
||
- Exemple : Si `Taille` et `Poids` sont corrélés à 0.85, gardez-en un seul
|
||
|
||
#### Export
|
||
Cliquez sur **"Exporter CSV"** pour télécharger les résultats.
|
||
|
||
---
|
||
|
||
### 2. Régression Statistique 📉
|
||
|
||
**Objectif** : Modéliser et prédire une variable cible.
|
||
|
||
#### Étape 1 : Configuration du modèle
|
||
|
||
Dans le panneau de configuration avancée :
|
||
|
||
**1. Choisissez votre type de modèle** :
|
||
- **Linéaire** : Relations linéaires simples
|
||
- **Logistique** : Cible binaire (oui/non, 0/1)
|
||
- **Polynomial** : Relations courbes (degrés 2-5)
|
||
- **Exponentielle** : Croissance/décroissance exponentielle
|
||
|
||
**2. Sélectionnez votre Variable Cible (Y)** :
|
||
- La variable que vous voulez expliquer/prédire
|
||
- Pour linéaire/polynomial/exponentielle : doit être **numérique continue**
|
||
- Pour logistique : doit être **catégorique ou binaire**
|
||
|
||
**3. Choisissez vos Prédicteurs (X)** :
|
||
- Les variables qui expliquent Y
|
||
- L'application recommande automatiquement les **5 meilleures variables** basées sur leur importance
|
||
- Désélectionnez les variables avec multicolinéarité
|
||
|
||
#### Étape 2 : Options avancées
|
||
|
||
**Pour Polynomial** :
|
||
- **Degré du polynôme** : 2 (quadratique) à 5
|
||
- + degré = + complexité (risque de sur-apprentissage)
|
||
|
||
**Pour Linéaire/Polynomial** :
|
||
- **Inclure interactions** : Crée des termes croisés (x1*x2)
|
||
- Utile pour capturer les effets combinés de variables
|
||
|
||
#### Étape 3 : Lancer l'analyse
|
||
|
||
Cliquez sur **"Lancer l'Analyse"** et attendez les résultats.
|
||
|
||
---
|
||
|
||
## 📊 Interpréter les Résultats de Régression
|
||
|
||
### 1. Métriques de Qualité
|
||
|
||
| Métrique | Description | Valeur Idéale |
|
||
|----------|-------------|---------------|
|
||
| **R-Squared** | Proportion de variance expliquée | 0.7 - 1.0 |
|
||
| **Adj. R-Squared** | R² ajusté pour le nombre de variables | Proche de R² |
|
||
| **AIC / BIC** | Critères d'information (plus bas = mieux) | Comparer modèles |
|
||
|
||
#### R-Squared Guide
|
||
- **0.90 - 1.00** : Excellent ajustement
|
||
- **0.70 - 0.90** : Bon ajustement
|
||
- **0.50 - 0.70** : Ajustement modéré
|
||
- **< 0.50** : Faible ajustement
|
||
|
||
---
|
||
|
||
### 2. Coefficients du Modèle
|
||
|
||
Le tableau des coefficients indique l'impact de chaque variable :
|
||
|
||
| Colonne | Signification |
|
||
|---------|---------------|
|
||
| **Variable** | Nom de la variable ou constante |
|
||
| **Coefficient** | Impact moyen sur Y (si X augmente de 1) |
|
||
| **P-Value** | Significativité statistique |
|
||
| **Fiabilité** | FIABLE si p < 0.05 |
|
||
|
||
#### Comment lire les coefficients ?
|
||
|
||
**Exemple** : `Y = 10 + 2.5*X1 - 1.3*X2`
|
||
|
||
- **Constante (10)** : Valeur de Y quand tous les X = 0
|
||
- **X1 (+2.5)** : Si X1 augmente de 1, Y augmente de 2.5
|
||
- **X2 (-1.3)** : Si X2 augmente de 1, Y diminue de 1.3
|
||
|
||
⚠️ **Important** : Un coefficient n'est fiable que si **p-value < 0.05** (FIABLE)
|
||
|
||
---
|
||
|
||
### 3. Équation du Modèle
|
||
|
||
L'application génère automatiquement l'équation dans 3 formats :
|
||
|
||
#### LaTeX (Mathématique)
|
||
Pour vos rapports et publications :
|
||
```
|
||
y = 1.234567 + 2.345678x_{0} + 3.456789x_{0}^{2}
|
||
```
|
||
|
||
#### Python (Code)
|
||
Pour implémenter le modèle en Python :
|
||
```python
|
||
y = 1.234567 + 2.345678*x0 + 3.456789*x0**2
|
||
```
|
||
|
||
#### Excel (Formule)
|
||
Pour utiliser dans Excel/Google Sheets :
|
||
```
|
||
=1.234567 + 2.345678*A1 + 3.456789*A1^2
|
||
```
|
||
|
||
**Bouton "Copier"** : Copiez l'équation directement dans votre presse-papier !
|
||
|
||
---
|
||
|
||
### 4. Graphiques de Diagnostic
|
||
|
||
#### Fit Plot (Régression univariée)
|
||
- **Points gris** : Vos données réelles
|
||
- **Ligne bleue** : Le modèle ajusté
|
||
- Vérifiez que la ligne suit bien la tendance des points
|
||
|
||
#### Partial Regression Plot (Régression multivariée)
|
||
- Montre l'**effet isolé** de chaque variable
|
||
- Contrôle l'effet des autres variables
|
||
- La **pente** = coefficient du modèle
|
||
- Utilisez le sélecteur pour changer de variable
|
||
|
||
#### Parity Plot (Validation)
|
||
- **Diagonale rouge** : Prédictions parfaites (Y = X)
|
||
- **Points violets** : Vos observations
|
||
- Plus les points sont proches de la diagonale = meilleur modèle
|
||
- **Écart à la diagonale** = erreur de prédiction
|
||
|
||
---
|
||
|
||
## 🔍 Détection et Gestion des Outliers
|
||
|
||
### Types d'Outliers
|
||
|
||
#### 1. Outliers Univariés (IQR)
|
||
Détection basée sur l'écart interquartile :
|
||
- **Calcul** : Q1 - 1.5×IQR (bas) / Q3 + 1.5×IQR (haut)
|
||
- **Indicateur** : 🔴 Cercle rouge
|
||
- **Action** : Vérifiez la valeur, corrigez ou excluez
|
||
|
||
#### 2. Outliers Multivariés (Isolation Forest)
|
||
Détection basée sur les combinaisons de variables :
|
||
- **Algorithme** : Isolation Forest
|
||
- **Indicateur** : 🟣 Cercle violet
|
||
- **Action** : Anomalie globale à investiguer
|
||
|
||
### Processus d'Exclusion
|
||
|
||
1. **Identifiez** les outliers dans la table
|
||
2. **Survolez** pour voir le détail (raison)
|
||
3. **Cliquez sur l'outlier** pour le marquer
|
||
4. **Réexécutez** l'analyse sans ces points
|
||
|
||
**Note** : Les outliers exclus sont mémorisés et ne réapparaissent pas.
|
||
|
||
---
|
||
|
||
## 💡 Bonnes Pratiques
|
||
|
||
### Avant la Régression
|
||
|
||
✅ **TOUJOURS** vérifier la matrice de corrélation
|
||
✅ **Éviter** la multicolinéarité (corrélations ≥ 0.7 entre prédicteurs)
|
||
✅ **Choisir** des prédicteurs corrélés avec la cible
|
||
✅ **Exclure** les outliers extrêmes
|
||
|
||
### Pendant l'Analyse
|
||
|
||
✅ **Commencer** par un modèle linéaire simple
|
||
✅ **Augmenter** la complexité progressivement (polynomial, interactions)
|
||
✅ **Surveiller** le R² ajusté (il diminue si variables inutiles)
|
||
✅ **Vérifier** les p-values (< 0.05 = fiable)
|
||
|
||
### Après l'Analyse
|
||
|
||
✅ **Valider** avec le Parity Plot (points près de la diagonale)
|
||
✅ **Interpréter** les coefficients (sens et magnitude)
|
||
✅ **Exporter** l'équation pour utilisation future
|
||
✅ **Documenter** les décisions (variables exclues, outliers retirés)
|
||
|
||
---
|
||
|
||
## 🎯 Cas d'Usage
|
||
|
||
### Exemple 1 : Prédire le Prix Immobiliers
|
||
|
||
**Données** : Prix, Surface, Chambres, Quartier, Année
|
||
|
||
1. **Corrélation** : Prix vs Surface (forte corrélation)
|
||
2. **Régression linéaire** :
|
||
- Y = Prix
|
||
- X = Surface, Chambres
|
||
- Équation : `Prix = 50000 + 2500*Surface + 15000*Chambres`
|
||
3. **Utilisation** : Prédire le prix d'un appartement de 60m² avec 2 chambres
|
||
- `Prix = 50000 + 2500*60 + 15000*2 = 215000€`
|
||
|
||
### Exemple 2 : Probabilité de Réclamation
|
||
|
||
**Données** : Âge, Montant, Historique, Réclamation (oui/non)
|
||
|
||
1. **Régression logistique** :
|
||
- Y = Réclamation (0/1)
|
||
- X = Âge, Montant, Historique
|
||
2. **Résultat** : Probabilité de réclamation = f(Âge, Montant, Historique)
|
||
|
||
### Exemple 3 : Relation Courbe (Ventes vs Publicité)
|
||
|
||
**Données** : Ventes, Budget_Pub, Concurrence
|
||
|
||
1. **Corrélation** : Forte mais non-linéaire
|
||
2. **Régression polynomial (degré 2)** :
|
||
- Y = Ventes
|
||
- X = Budget_Pub
|
||
- Équation : `Ventes = 1000 + 5*Budget - 0.01*Budget²`
|
||
3. **Interprétation** : Rendements décroissants après un certain budget
|
||
|
||
---
|
||
|
||
## ❓ Questions Fréquentes
|
||
|
||
### Mon R² est faible (< 0.5). Que faire ?
|
||
|
||
- **Vérifiez** : Avez-vous les bons prédicteurs ?
|
||
- **Testez** : Ajoutez des variables ou essayez polynomial
|
||
- **Nettoyez** : Supprimez les outliers
|
||
- **Acceptez** : Le modèle n'explique peut-être pas tout (variables manquantes)
|
||
|
||
### Une variable a une p-value > 0.05. Je la garde ?
|
||
|
||
**Non** en général :
|
||
- Le coefficient n'est pas statistiquement significatif
|
||
- Le modèle est plus robuste sans elle
|
||
- Exception : Avis d'expert justifiant son importance
|
||
|
||
### Combien de prédicteurs choisir ?
|
||
|
||
- **Règle** : 1 prédicteur pour 10-20 observations
|
||
- **Maximum** : n/10 (n = taille échantillon)
|
||
- **Qualité > Quantité** : Préférez 5 variables fiables à 20 variables instables
|
||
|
||
### Quand utiliser polynomial vs linéaire ?
|
||
|
||
- **Linéaire** : Relation droite (premier choix)
|
||
- **Polynomial** : Relation courbe évidente sur le scatter plot
|
||
- **Attention** : Degré trop élevé = sur-apprentissage
|
||
|
||
---
|
||
|
||
## 📞 Support et Ressources
|
||
|
||
### Documentation Détaillée
|
||
- 📊 **[Corrélation](CORRELATION_GUIDE.md)** : Guide complet des coefficients de corrélation
|
||
- 📈 **[Régression](REGRESSION_GUIDE.md)** : Modèles, interprétation, équations
|
||
- 🔍 **[Outliers](OUTLIER_GUIDE.md)** : Méthodes de détection et gestion
|
||
|
||
### Glossaire
|
||
|
||
- **Corrélation** : Force et direction d'une relation entre deux variables
|
||
- **Multicolinéarité** : Forte corrélation entre prédicteurs (problématique)
|
||
- **P-value** : Probabilité que le résultat soit dû au hasard (< 0.05 = significatif)
|
||
- **R²** : Proportion de variance expliquée par le modèle (0 à 1)
|
||
- **Outlier** : Observation anormale qui s'écarte du reste des données
|
||
- **Isolation Forest** : Algorithme de détection d'anomalies multivariées
|
||
- **IQR** : Interquartile Range (Q3 - Q1), utilisé pour détecter les extrêmes
|
||
|
||
---
|
||
|
||
**Version** : 1.0
|
||
**Dernière mise à jour** : Janvier 2026
|
||
**Plateforme** : Application Web d'Analyse de Données
|
||
|
||
🎓 **Bonnes analyses !**
|