Analysis/docs/USER_GUIDE.md

# Guide Utilisateur - Application d'Analyse de Données

📊 **Bienvenue** dans l'application d'analyse de données statistiques. Ce guide vous accompagne pas à pas dans l'utilisation des fonctionnalités principales.

---

## 🚀 Démarrage Rapide

### 1. Importer vos données
- **Formats supportés** : CSV, Excel
- **Cliquez sur** "Upload File" pour charger votre dataset
- Les données sont automatiquement détectées et typées (numérique, catégorique, date)

### 2. Explorer vos données
- Utilisez la **table intelligente** pour visualiser vos données
- Les outliers potentiels sont indiqués par des **cercles colorés** :
  - 🔴 **Rouge** : Outlier univarié (valeur extrême dans une colonne)
  - 🟣 **Violet** : Outlier multivarié (anomalie globale)

### 3. Lancer une analyse
Cliquez sur le bouton **"Analyse"** dans la barre latérale pour accéder aux outils d'analyse.

---

## 📈 Fonctionnalités Principales

### 1. Matrice de Corrélation 🔗

**Objectif** : Comprendre les relations entre vos variables numériques.

#### Comment l'utiliser ?

1. **Accédez à l'onglet "Corrélation"**
2. **Choisissez la méthode** :
   - **Pearson** : Relations linéaires (données normales)
   - **Spearman** : Relations monotones (données non-paramétriques)
   - **Kendall** : Similarité de rang (petits échantillons)

3. **Interprétez la heatmap** :
   - **Rouge foncé** : Forte corrélation positive (0.7 à 1.0)
   - **Bleu foncé** : Forte corrélation négative (-0.7 à -1.0)
   - **Bordure rouge** ⚠️ : Multicolinéarité détectée (≥0.7)

4. **Filtres avancés** :
   - **Seuil minimum** : Affichez seulement les corrélations > X
   - **Significatif seulement** : p-value < 0.05

#### ⚠️ Alertes Multicolinéarité
Si vous voyez une **bordure rouge** entre deux prédicteurs :
- **Ne les utilisez pas ensemble** dans une régression
- Choisissez la variable la plus corrélée avec votre cible
- Exemple : Si `Taille` et `Poids` sont corrélés à 0.85, gardez-en un seul

#### Export
Cliquez sur **"Exporter CSV"** pour télécharger les résultats.

---

### 2. Régression Statistique 📉

**Objectif** : Modéliser et prédire une variable cible.

#### Étape 1 : Configuration du modèle

Dans le panneau de configuration avancée :

**1. Choisissez votre type de modèle** :
- **Linéaire** : Relations linéaires simples
- **Logistique** : Cible binaire (oui/non, 0/1)
- **Polynomial** : Relations courbes (degrés 2-5)
- **Exponentielle** : Croissance/décroissance exponentielle

**2. Sélectionnez votre Variable Cible (Y)** :
- La variable que vous voulez expliquer/prédire
- Pour linéaire/polynomial/exponentielle : doit être **numérique continue**
- Pour logistique : doit être **catégorique ou binaire**

**3. Choisissez vos Prédicteurs (X)** :
- Les variables qui expliquent Y
- L'application recommande automatiquement les **5 meilleures variables** basées sur leur importance
- Désélectionnez les variables avec multicolinéarité

#### Étape 2 : Options avancées

**Pour Polynomial** :
- **Degré du polynôme** : 2 (quadratique) à 5
- + degré = + complexité (risque de sur-apprentissage)

**Pour Linéaire/Polynomial** :
- **Inclure interactions** : Crée des termes croisés (x1*x2)
- Utile pour capturer les effets combinés de variables

#### Étape 3 : Lancer l'analyse

Cliquez sur **"Lancer l'Analyse"** et attendez les résultats.

---

## 📊 Interpréter les Résultats de Régression

### 1. Métriques de Qualité

| Métrique | Description | Valeur Idéale |
|----------|-------------|---------------|
| **R-Squared** | Proportion de variance expliquée | 0.7 - 1.0 |
| **Adj. R-Squared** | R² ajusté pour le nombre de variables | Proche de R² |
| **AIC / BIC** | Critères d'information (plus bas = mieux) | Comparer modèles |

#### R-Squared Guide
- **0.90 - 1.00** : Excellent ajustement
- **0.70 - 0.90** : Bon ajustement
- **0.50 - 0.70** : Ajustement modéré
- **< 0.50** : Faible ajustement

---

### 2. Coefficients du Modèle

Le tableau des coefficients indique l'impact de chaque variable :

| Colonne | Signification |
|---------|---------------|
| **Variable** | Nom de la variable ou constante |
| **Coefficient** | Impact moyen sur Y (si X augmente de 1) |
| **P-Value** | Significativité statistique |
| **Fiabilité** | FIABLE si p < 0.05 |

#### Comment lire les coefficients ?

**Exemple** : `Y = 10 + 2.5*X1 - 1.3*X2`

- **Constante (10)** : Valeur de Y quand tous les X = 0
- **X1 (+2.5)** : Si X1 augmente de 1, Y augmente de 2.5
- **X2 (-1.3)** : Si X2 augmente de 1, Y diminue de 1.3

⚠️ **Important** : Un coefficient n'est fiable que si **p-value < 0.05** (FIABLE)

---

### 3. Équation du Modèle

L'application génère automatiquement l'équation dans 3 formats :

#### LaTeX (Mathématique)
Pour vos rapports et publications :
```
y = 1.234567 + 2.345678x_{0} + 3.456789x_{0}^{2}
```

#### Python (Code)
Pour implémenter le modèle en Python :
```python
y = 1.234567 + 2.345678*x0 + 3.456789*x0**2
```

#### Excel (Formule)
Pour utiliser dans Excel/Google Sheets :
```
=1.234567 + 2.345678*A1 + 3.456789*A1^2
```

**Bouton "Copier"** : Copiez l'équation directement dans votre presse-papier !

---

### 4. Graphiques de Diagnostic

#### Fit Plot (Régression univariée)
- **Points gris** : Vos données réelles
- **Ligne bleue** : Le modèle ajusté
- Vérifiez que la ligne suit bien la tendance des points

#### Partial Regression Plot (Régression multivariée)
- Montre l'**effet isolé** de chaque variable
- Contrôle l'effet des autres variables
- La **pente** = coefficient du modèle
- Utilisez le sélecteur pour changer de variable

#### Parity Plot (Validation)
- **Diagonale rouge** : Prédictions parfaites (Y = X)
- **Points violets** : Vos observations
- Plus les points sont proches de la diagonale = meilleur modèle
- **Écart à la diagonale** = erreur de prédiction

---

## 🔍 Détection et Gestion des Outliers

### Types d'Outliers

#### 1. Outliers Univariés (IQR)
Détection basée sur l'écart interquartile :
- **Calcul** : Q1 - 1.5×IQR (bas) / Q3 + 1.5×IQR (haut)
- **Indicateur** : 🔴 Cercle rouge
- **Action** : Vérifiez la valeur, corrigez ou excluez

#### 2. Outliers Multivariés (Isolation Forest)
Détection basée sur les combinaisons de variables :
- **Algorithme** : Isolation Forest
- **Indicateur** : 🟣 Cercle violet
- **Action** : Anomalie globale à investiguer

### Processus d'Exclusion

1. **Identifiez** les outliers dans la table
2. **Survolez** pour voir le détail (raison)
3. **Cliquez sur l'outlier** pour le marquer
4. **Réexécutez** l'analyse sans ces points

**Note** : Les outliers exclus sont mémorisés et ne réapparaissent pas.

---

## 💡 Bonnes Pratiques

### Avant la Régression

✅ **TOUJOURS** vérifier la matrice de corrélation
✅ **Éviter** la multicolinéarité (corrélations ≥ 0.7 entre prédicteurs)
✅ **Choisir** des prédicteurs corrélés avec la cible
✅ **Exclure** les outliers extrêmes

### Pendant l'Analyse

✅ **Commencer** par un modèle linéaire simple
✅ **Augmenter** la complexité progressivement (polynomial, interactions)
✅ **Surveiller** le R² ajusté (il diminue si variables inutiles)
✅ **Vérifier** les p-values (< 0.05 = fiable)

### Après l'Analyse

✅ **Valider** avec le Parity Plot (points près de la diagonale)
✅ **Interpréter** les coefficients (sens et magnitude)
✅ **Exporter** l'équation pour utilisation future
✅ **Documenter** les décisions (variables exclues, outliers retirés)

---

## 🎯 Cas d'Usage

### Exemple 1 : Prédire le Prix Immobiliers

**Données** : Prix, Surface, Chambres, Quartier, Année

1. **Corrélation** : Prix vs Surface (forte corrélation)
2. **Régression linéaire** :
   - Y = Prix
   - X = Surface, Chambres
   - Équation : `Prix = 50000 + 2500*Surface + 15000*Chambres`
3. **Utilisation** : Prédire le prix d'un appartement de 60m² avec 2 chambres
   - `Prix = 50000 + 2500*60 + 15000*2 = 215000€`

### Exemple 2 : Probabilité de Réclamation

**Données** : Âge, Montant, Historique, Réclamation (oui/non)

1. **Régression logistique** :
   - Y = Réclamation (0/1)
   - X = Âge, Montant, Historique
2. **Résultat** : Probabilité de réclamation = f(Âge, Montant, Historique)

### Exemple 3 : Relation Courbe (Ventes vs Publicité)

**Données** : Ventes, Budget_Pub, Concurrence

1. **Corrélation** : Forte mais non-linéaire
2. **Régression polynomial (degré 2)** :
   - Y = Ventes
   - X = Budget_Pub
   - Équation : `Ventes = 1000 + 5*Budget - 0.01*Budget²`
3. **Interprétation** : Rendements décroissants après un certain budget

---

## ❓ Questions Fréquentes

### Mon R² est faible (< 0.5). Que faire ?

- **Vérifiez** : Avez-vous les bons prédicteurs ?
- **Testez** : Ajoutez des variables ou essayez polynomial
- **Nettoyez** : Supprimez les outliers
- **Acceptez** : Le modèle n'explique peut-être pas tout (variables manquantes)

### Une variable a une p-value > 0.05. Je la garde ?

**Non** en général :
- Le coefficient n'est pas statistiquement significatif
- Le modèle est plus robuste sans elle
- Exception : Avis d'expert justifiant son importance

### Combien de prédicteurs choisir ?

- **Règle** : 1 prédicteur pour 10-20 observations
- **Maximum** : n/10 (n = taille échantillon)
- **Qualité > Quantité** : Préférez 5 variables fiables à 20 variables instables

### Quand utiliser polynomial vs linéaire ?

- **Linéaire** : Relation droite (premier choix)
- **Polynomial** : Relation courbe évidente sur le scatter plot
- **Attention** : Degré trop élevé = sur-apprentissage

---

## 📞 Support et Ressources

### Documentation Détaillée
- 📊 **[Corrélation](CORRELATION_GUIDE.md)** : Guide complet des coefficients de corrélation
- 📈 **[Régression](REGRESSION_GUIDE.md)** : Modèles, interprétation, équations
- 🔍 **[Outliers](OUTLIER_GUIDE.md)** : Méthodes de détection et gestion

### Glossaire

- **Corrélation** : Force et direction d'une relation entre deux variables
- **Multicolinéarité** : Forte corrélation entre prédicteurs (problématique)
- **P-value** : Probabilité que le résultat soit dû au hasard (< 0.05 = significatif)
- **R²** : Proportion de variance expliquée par le modèle (0 à 1)
- **Outlier** : Observation anormale qui s'écarte du reste des données
- **Isolation Forest** : Algorithme de détection d'anomalies multivariées
- **IQR** : Interquartile Range (Q3 - Q1), utilisé pour détecter les extrêmes

---

**Version** : 1.0
**Dernière mise à jour** : Janvier 2026
**Plateforme** : Application Web d'Analyse de Données

🎓 **Bonnes analyses !**