Analysis/docs/USER_GUIDE.md
2026-01-11 22:56:02 +01:00

329 lines
10 KiB
Markdown
Raw Permalink Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Guide Utilisateur - Application d'Analyse de Données
📊 **Bienvenue** dans l'application d'analyse de données statistiques. Ce guide vous accompagne pas à pas dans l'utilisation des fonctionnalités principales.
---
## 🚀 Démarrage Rapide
### 1. Importer vos données
- **Formats supportés** : CSV, Excel
- **Cliquez sur** "Upload File" pour charger votre dataset
- Les données sont automatiquement détectées et typées (numérique, catégorique, date)
### 2. Explorer vos données
- Utilisez la **table intelligente** pour visualiser vos données
- Les outliers potentiels sont indiqués par des **cercles colorés** :
- 🔴 **Rouge** : Outlier univarié (valeur extrême dans une colonne)
- 🟣 **Violet** : Outlier multivarié (anomalie globale)
### 3. Lancer une analyse
Cliquez sur le bouton **"Analyse"** dans la barre latérale pour accéder aux outils d'analyse.
---
## 📈 Fonctionnalités Principales
### 1. Matrice de Corrélation 🔗
**Objectif** : Comprendre les relations entre vos variables numériques.
#### Comment l'utiliser ?
1. **Accédez à l'onglet "Corrélation"**
2. **Choisissez la méthode** :
- **Pearson** : Relations linéaires (données normales)
- **Spearman** : Relations monotones (données non-paramétriques)
- **Kendall** : Similarité de rang (petits échantillons)
3. **Interprétez la heatmap** :
- **Rouge foncé** : Forte corrélation positive (0.7 à 1.0)
- **Bleu foncé** : Forte corrélation négative (-0.7 à -1.0)
- **Bordure rouge** ⚠️ : Multicolinéarité détectée (≥0.7)
4. **Filtres avancés** :
- **Seuil minimum** : Affichez seulement les corrélations > X
- **Significatif seulement** : p-value < 0.05
#### ⚠️ Alertes Multicolinéarité
Si vous voyez une **bordure rouge** entre deux prédicteurs :
- **Ne les utilisez pas ensemble** dans une régression
- Choisissez la variable la plus corrélée avec votre cible
- Exemple : Si `Taille` et `Poids` sont corrélés à 0.85, gardez-en un seul
#### Export
Cliquez sur **"Exporter CSV"** pour télécharger les résultats.
---
### 2. Régression Statistique 📉
**Objectif** : Modéliser et prédire une variable cible.
#### Étape 1 : Configuration du modèle
Dans le panneau de configuration avancée :
**1. Choisissez votre type de modèle** :
- **Linéaire** : Relations linéaires simples
- **Logistique** : Cible binaire (oui/non, 0/1)
- **Polynomial** : Relations courbes (degrés 2-5)
- **Exponentielle** : Croissance/décroissance exponentielle
**2. Sélectionnez votre Variable Cible (Y)** :
- La variable que vous voulez expliquer/prédire
- Pour linéaire/polynomial/exponentielle : doit être **numérique continue**
- Pour logistique : doit être **catégorique ou binaire**
**3. Choisissez vos Prédicteurs (X)** :
- Les variables qui expliquent Y
- L'application recommande automatiquement les **5 meilleures variables** basées sur leur importance
- Désélectionnez les variables avec multicolinéarité
#### Étape 2 : Options avancées
**Pour Polynomial** :
- **Degré du polynôme** : 2 (quadratique) à 5
- + degré = + complexité (risque de sur-apprentissage)
**Pour Linéaire/Polynomial** :
- **Inclure interactions** : Crée des termes croisés (x1*x2)
- Utile pour capturer les effets combinés de variables
#### Étape 3 : Lancer l'analyse
Cliquez sur **"Lancer l'Analyse"** et attendez les résultats.
---
## 📊 Interpréter les Résultats de Régression
### 1. Métriques de Qualité
| Métrique | Description | Valeur Idéale |
|----------|-------------|---------------|
| **R-Squared** | Proportion de variance expliquée | 0.7 - 1.0 |
| **Adj. R-Squared** | R² ajusté pour le nombre de variables | Proche de R² |
| **AIC / BIC** | Critères d'information (plus bas = mieux) | Comparer modèles |
#### R-Squared Guide
- **0.90 - 1.00** : Excellent ajustement
- **0.70 - 0.90** : Bon ajustement
- **0.50 - 0.70** : Ajustement modéré
- **< 0.50** : Faible ajustement
---
### 2. Coefficients du Modèle
Le tableau des coefficients indique l'impact de chaque variable :
| Colonne | Signification |
|---------|---------------|
| **Variable** | Nom de la variable ou constante |
| **Coefficient** | Impact moyen sur Y (si X augmente de 1) |
| **P-Value** | Significativité statistique |
| **Fiabilité** | FIABLE si p < 0.05 |
#### Comment lire les coefficients ?
**Exemple** : `Y = 10 + 2.5*X1 - 1.3*X2`
- **Constante (10)** : Valeur de Y quand tous les X = 0
- **X1 (+2.5)** : Si X1 augmente de 1, Y augmente de 2.5
- **X2 (-1.3)** : Si X2 augmente de 1, Y diminue de 1.3
**Important** : Un coefficient n'est fiable que si **p-value < 0.05** (FIABLE)
---
### 3. Équation du Modèle
L'application génère automatiquement l'équation dans 3 formats :
#### LaTeX (Mathématique)
Pour vos rapports et publications :
```
y = 1.234567 + 2.345678x_{0} + 3.456789x_{0}^{2}
```
#### Python (Code)
Pour implémenter le modèle en Python :
```python
y = 1.234567 + 2.345678*x0 + 3.456789*x0**2
```
#### Excel (Formule)
Pour utiliser dans Excel/Google Sheets :
```
=1.234567 + 2.345678*A1 + 3.456789*A1^2
```
**Bouton "Copier"** : Copiez l'équation directement dans votre presse-papier !
---
### 4. Graphiques de Diagnostic
#### Fit Plot (Régression univariée)
- **Points gris** : Vos données réelles
- **Ligne bleue** : Le modèle ajusté
- Vérifiez que la ligne suit bien la tendance des points
#### Partial Regression Plot (Régression multivariée)
- Montre l'**effet isolé** de chaque variable
- Contrôle l'effet des autres variables
- La **pente** = coefficient du modèle
- Utilisez le sélecteur pour changer de variable
#### Parity Plot (Validation)
- **Diagonale rouge** : Prédictions parfaites (Y = X)
- **Points violets** : Vos observations
- Plus les points sont proches de la diagonale = meilleur modèle
- **Écart à la diagonale** = erreur de prédiction
---
## 🔍 Détection et Gestion des Outliers
### Types d'Outliers
#### 1. Outliers Univariés (IQR)
Détection basée sur l'écart interquartile :
- **Calcul** : Q1 - 1.5×IQR (bas) / Q3 + 1.5×IQR (haut)
- **Indicateur** : 🔴 Cercle rouge
- **Action** : Vérifiez la valeur, corrigez ou excluez
#### 2. Outliers Multivariés (Isolation Forest)
Détection basée sur les combinaisons de variables :
- **Algorithme** : Isolation Forest
- **Indicateur** : 🟣 Cercle violet
- **Action** : Anomalie globale à investiguer
### Processus d'Exclusion
1. **Identifiez** les outliers dans la table
2. **Survolez** pour voir le détail (raison)
3. **Cliquez sur l'outlier** pour le marquer
4. **Réexécutez** l'analyse sans ces points
**Note** : Les outliers exclus sont mémorisés et ne réapparaissent pas.
---
## 💡 Bonnes Pratiques
### Avant la Régression
**TOUJOURS** vérifier la matrice de corrélation
**Éviter** la multicolinéarité (corrélations 0.7 entre prédicteurs)
**Choisir** des prédicteurs corrélés avec la cible
**Exclure** les outliers extrêmes
### Pendant l'Analyse
**Commencer** par un modèle linéaire simple
**Augmenter** la complexité progressivement (polynomial, interactions)
**Surveiller** le R² ajusté (il diminue si variables inutiles)
**Vérifier** les p-values (< 0.05 = fiable)
### Après l'Analyse
**Valider** avec le Parity Plot (points près de la diagonale)
**Interpréter** les coefficients (sens et magnitude)
**Exporter** l'équation pour utilisation future
**Documenter** les décisions (variables exclues, outliers retirés)
---
## 🎯 Cas d'Usage
### Exemple 1 : Prédire le Prix Immobiliers
**Données** : Prix, Surface, Chambres, Quartier, Année
1. **Corrélation** : Prix vs Surface (forte corrélation)
2. **Régression linéaire** :
- Y = Prix
- X = Surface, Chambres
- Équation : `Prix = 50000 + 2500*Surface + 15000*Chambres`
3. **Utilisation** : Prédire le prix d'un appartement de 60m² avec 2 chambres
- `Prix = 50000 + 2500*60 + 15000*2 = 215000€`
### Exemple 2 : Probabilité de Réclamation
**Données** : Âge, Montant, Historique, Réclamation (oui/non)
1. **Régression logistique** :
- Y = Réclamation (0/1)
- X = Âge, Montant, Historique
2. **Résultat** : Probabilité de réclamation = f(Âge, Montant, Historique)
### Exemple 3 : Relation Courbe (Ventes vs Publicité)
**Données** : Ventes, Budget_Pub, Concurrence
1. **Corrélation** : Forte mais non-linéaire
2. **Régression polynomial (degré 2)** :
- Y = Ventes
- X = Budget_Pub
- Équation : `Ventes = 1000 + 5*Budget - 0.01*Budget²`
3. **Interprétation** : Rendements décroissants après un certain budget
---
## ❓ Questions Fréquentes
### Mon R² est faible (< 0.5). Que faire ?
- **Vérifiez** : Avez-vous les bons prédicteurs ?
- **Testez** : Ajoutez des variables ou essayez polynomial
- **Nettoyez** : Supprimez les outliers
- **Acceptez** : Le modèle n'explique peut-être pas tout (variables manquantes)
### Une variable a une p-value > 0.05. Je la garde ?
**Non** en général :
- Le coefficient n'est pas statistiquement significatif
- Le modèle est plus robuste sans elle
- Exception : Avis d'expert justifiant son importance
### Combien de prédicteurs choisir ?
- **Règle** : 1 prédicteur pour 10-20 observations
- **Maximum** : n/10 (n = taille échantillon)
- **Qualité > Quantité** : Préférez 5 variables fiables à 20 variables instables
### Quand utiliser polynomial vs linéaire ?
- **Linéaire** : Relation droite (premier choix)
- **Polynomial** : Relation courbe évidente sur le scatter plot
- **Attention** : Degré trop élevé = sur-apprentissage
---
## 📞 Support et Ressources
### Documentation Détaillée
- 📊 **[Corrélation](CORRELATION_GUIDE.md)** : Guide complet des coefficients de corrélation
- 📈 **[Régression](REGRESSION_GUIDE.md)** : Modèles, interprétation, équations
- 🔍 **[Outliers](OUTLIER_GUIDE.md)** : Méthodes de détection et gestion
### Glossaire
- **Corrélation** : Force et direction d'une relation entre deux variables
- **Multicolinéarité** : Forte corrélation entre prédicteurs (problématique)
- **P-value** : Probabilité que le résultat soit dû au hasard (< 0.05 = significatif)
- **R²** : Proportion de variance expliquée par le modèle (0 à 1)
- **Outlier** : Observation anormale qui s'écarte du reste des données
- **Isolation Forest** : Algorithme de détection d'anomalies multivariées
- **IQR** : Interquartile Range (Q3 - Q1), utilisé pour détecter les extrêmes
---
**Version** : 1.0
**Dernière mise à jour** : Janvier 2026
**Plateforme** : Application Web d'Analyse de Données
🎓 **Bonnes analyses !**