Initial commit

2026-01-11 22:04:05 +01:00
commit 87a8b6b844
549 changed files with 96211 additions and 0 deletions
--- a/frontend/public/docs/USER_GUIDE.md
+++ b/frontend/public/docs/USER_GUIDE.md
@@ -0,0 +1,328 @@
+# Guide Utilisateur - Application d'Analyse de Données
+
+📊 **Bienvenue** dans l'application d'analyse de données statistiques. Ce guide vous accompagne pas à pas dans l'utilisation des fonctionnalités principales.
+
+---
+
+## 🚀 Démarrage Rapide
+
+### 1. Importer vos données
+- **Formats supportés** : CSV, Excel
+- **Cliquez sur** "Upload File" pour charger votre dataset
+- Les données sont automatiquement détectées et typées (numérique, catégorique, date)
+
+### 2. Explorer vos données
+- Utilisez la **table intelligente** pour visualiser vos données
+- Les outliers potentiels sont indiqués par des **cercles colorés** :
+  - 🔴 **Rouge** : Outlier univarié (valeur extrême dans une colonne)
+  - 🟣 **Violet** : Outlier multivarié (anomalie globale)
+
+### 3. Lancer une analyse
+Cliquez sur le bouton **"Analyse"** dans la barre latérale pour accéder aux outils d'analyse.
+
+---
+
+## 📈 Fonctionnalités Principales
+
+### 1. Matrice de Corrélation 🔗
+
+**Objectif** : Comprendre les relations entre vos variables numériques.
+
+#### Comment l'utiliser ?
+
+1. **Accédez à l'onglet "Corrélation"**
+2. **Choisissez la méthode** :
+   - **Pearson** : Relations linéaires (données normales)
+   - **Spearman** : Relations monotones (données non-paramétriques)
+   - **Kendall** : Similarité de rang (petits échantillons)
+
+3. **Interprétez la heatmap** :
+   - **Rouge foncé** : Forte corrélation positive (0.7 à 1.0)
+   - **Bleu foncé** : Forte corrélation négative (-0.7 à -1.0)
+   - **Bordure rouge** ⚠️ : Multicolinéarité détectée (≥0.7)
+
+4. **Filtres avancés** :
+   - **Seuil minimum** : Affichez seulement les corrélations > X
+   - **Significatif seulement** : p-value < 0.05
+
+#### ⚠️ Alertes Multicolinéarité
+Si vous voyez une **bordure rouge** entre deux prédicteurs :
+- **Ne les utilisez pas ensemble** dans une régression
+- Choisissez la variable la plus corrélée avec votre cible
+- Exemple : Si `Taille` et `Poids` sont corrélés à 0.85, gardez-en un seul
+
+#### Export
+Cliquez sur **"Exporter CSV"** pour télécharger les résultats.
+
+---
+
+### 2. Régression Statistique 📉
+
+**Objectif** : Modéliser et prédire une variable cible.
+
+#### Étape 1 : Configuration du modèle
+
+Dans le panneau de configuration avancée :
+
+**1. Choisissez votre type de modèle** :
+- **Linéaire** : Relations linéaires simples
+- **Logistique** : Cible binaire (oui/non, 0/1)
+- **Polynomial** : Relations courbes (degrés 2-5)
+- **Exponentielle** : Croissance/décroissance exponentielle
+
+**2. Sélectionnez votre Variable Cible (Y)** :
+- La variable que vous voulez expliquer/prédire
+- Pour linéaire/polynomial/exponentielle : doit être **numérique continue**
+- Pour logistique : doit être **catégorique ou binaire**
+
+**3. Choisissez vos Prédicteurs (X)** :
+- Les variables qui expliquent Y
+- L'application recommande automatiquement les **5 meilleures variables** basées sur leur importance
+- Désélectionnez les variables avec multicolinéarité
+
+#### Étape 2 : Options avancées
+
+**Pour Polynomial** :
+- **Degré du polynôme** : 2 (quadratique) à 5
+- + degré = + complexité (risque de sur-apprentissage)
+
+**Pour Linéaire/Polynomial** :
+- **Inclure interactions** : Crée des termes croisés (x1*x2)
+- Utile pour capturer les effets combinés de variables
+
+#### Étape 3 : Lancer l'analyse
+
+Cliquez sur **"Lancer l'Analyse"** et attendez les résultats.
+
+---
+
+## 📊 Interpréter les Résultats de Régression
+
+### 1. Métriques de Qualité
+
+| Métrique | Description | Valeur Idéale |
+|----------|-------------|---------------|
+| **R-Squared** | Proportion de variance expliquée | 0.7 - 1.0 |
+| **Adj. R-Squared** | R² ajusté pour le nombre de variables | Proche de R² |
+| **AIC / BIC** | Critères d'information (plus bas = mieux) | Comparer modèles |
+
+#### R-Squared Guide
+- **0.90 - 1.00** : Excellent ajustement
+- **0.70 - 0.90** : Bon ajustement
+- **0.50 - 0.70** : Ajustement modéré
+- **< 0.50** : Faible ajustement
+
+---
+
+### 2. Coefficients du Modèle
+
+Le tableau des coefficients indique l'impact de chaque variable :
+
+| Colonne | Signification |
+|---------|---------------|
+| **Variable** | Nom de la variable ou constante |
+| **Coefficient** | Impact moyen sur Y (si X augmente de 1) |
+| **P-Value** | Significativité statistique |
+| **Fiabilité** | FIABLE si p < 0.05 |
+
+#### Comment lire les coefficients ?
+
+**Exemple** : `Y = 10 + 2.5*X1 - 1.3*X2`
+
+- **Constante (10)** : Valeur de Y quand tous les X = 0
+- **X1 (+2.5)** : Si X1 augmente de 1, Y augmente de 2.5
+- **X2 (-1.3)** : Si X2 augmente de 1, Y diminue de 1.3
+
+⚠️ **Important** : Un coefficient n'est fiable que si **p-value < 0.05** (FIABLE)
+
+---
+
+### 3. Équation du Modèle
+
+L'application génère automatiquement l'équation dans 3 formats :
+
+#### LaTeX (Mathématique)
+Pour vos rapports et publications :
+```
+y = 1.234567 + 2.345678x_{0} + 3.456789x_{0}^{2}
+```
+
+#### Python (Code)
+Pour implémenter le modèle en Python :
+```python
+y = 1.234567 + 2.345678*x0 + 3.456789*x0**2
+```
+
+#### Excel (Formule)
+Pour utiliser dans Excel/Google Sheets :
+```
+=1.234567 + 2.345678*A1 + 3.456789*A1^2
+```
+
+**Bouton "Copier"** : Copiez l'équation directement dans votre presse-papier !
+
+---
+
+### 4. Graphiques de Diagnostic
+
+#### Fit Plot (Régression univariée)
+- **Points gris** : Vos données réelles
+- **Ligne bleue** : Le modèle ajusté
+- Vérifiez que la ligne suit bien la tendance des points
+
+#### Partial Regression Plot (Régression multivariée)
+- Montre l'**effet isolé** de chaque variable
+- Contrôle l'effet des autres variables
+- La **pente** = coefficient du modèle
+- Utilisez le sélecteur pour changer de variable
+
+#### Parity Plot (Validation)
+- **Diagonale rouge** : Prédictions parfaites (Y = X)
+- **Points violets** : Vos observations
+- Plus les points sont proches de la diagonale = meilleur modèle
+- **Écart à la diagonale** = erreur de prédiction
+
+---
+
+## 🔍 Détection et Gestion des Outliers
+
+### Types d'Outliers
+
+#### 1. Outliers Univariés (IQR)
+Détection basée sur l'écart interquartile :
+- **Calcul** : Q1 - 1.5×IQR (bas) / Q3 + 1.5×IQR (haut)
+- **Indicateur** : 🔴 Cercle rouge
+- **Action** : Vérifiez la valeur, corrigez ou excluez
+
+#### 2. Outliers Multivariés (Isolation Forest)
+Détection basée sur les combinaisons de variables :
+- **Algorithme** : Isolation Forest
+- **Indicateur** : 🟣 Cercle violet
+- **Action** : Anomalie globale à investiguer
+
+### Processus d'Exclusion
+
+1. **Identifiez** les outliers dans la table
+2. **Survolez** pour voir le détail (raison)
+3. **Cliquez sur l'outlier** pour le marquer
+4. **Réexécutez** l'analyse sans ces points
+
+**Note** : Les outliers exclus sont mémorisés et ne réapparaissent pas.
+
+---
+
+## 💡 Bonnes Pratiques
+
+### Avant la Régression
+
+✅ **TOUJOURS** vérifier la matrice de corrélation
+✅ **Éviter** la multicolinéarité (corrélations ≥ 0.7 entre prédicteurs)
+✅ **Choisir** des prédicteurs corrélés avec la cible
+✅ **Exclure** les outliers extrêmes
+
+### Pendant l'Analyse
+
+✅ **Commencer** par un modèle linéaire simple
+✅ **Augmenter** la complexité progressivement (polynomial, interactions)
+✅ **Surveiller** le R² ajusté (il diminue si variables inutiles)
+✅ **Vérifier** les p-values (< 0.05 = fiable)
+
+### Après l'Analyse
+
+✅ **Valider** avec le Parity Plot (points près de la diagonale)
+✅ **Interpréter** les coefficients (sens et magnitude)
+✅ **Exporter** l'équation pour utilisation future
+✅ **Documenter** les décisions (variables exclues, outliers retirés)
+
+---
+
+## 🎯 Cas d'Usage
+
+### Exemple 1 : Prédire le Prix Immobiliers
+
+**Données** : Prix, Surface, Chambres, Quartier, Année
+
+1. **Corrélation** : Prix vs Surface (forte corrélation)
+2. **Régression linéaire** :
+   - Y = Prix
+   - X = Surface, Chambres
+   - Équation : `Prix = 50000 + 2500*Surface + 15000*Chambres`
+3. **Utilisation** : Prédire le prix d'un appartement de 60m² avec 2 chambres
+   - `Prix = 50000 + 2500*60 + 15000*2 = 215000€`
+
+### Exemple 2 : Probabilité de Réclamation
+
+**Données** : Âge, Montant, Historique, Réclamation (oui/non)
+
+1. **Régression logistique** :
+   - Y = Réclamation (0/1)
+   - X = Âge, Montant, Historique
+2. **Résultat** : Probabilité de réclamation = f(Âge, Montant, Historique)
+
+### Exemple 3 : Relation Courbe (Ventes vs Publicité)
+
+**Données** : Ventes, Budget_Pub, Concurrence
+
+1. **Corrélation** : Forte mais non-linéaire
+2. **Régression polynomial (degré 2)** :
+   - Y = Ventes
+   - X = Budget_Pub
+   - Équation : `Ventes = 1000 + 5*Budget - 0.01*Budget²`
+3. **Interprétation** : Rendements décroissants après un certain budget
+
+---
+
+## ❓ Questions Fréquentes
+
+### Mon R² est faible (< 0.5). Que faire ?
+
+- **Vérifiez** : Avez-vous les bons prédicteurs ?
+- **Testez** : Ajoutez des variables ou essayez polynomial
+- **Nettoyez** : Supprimez les outliers
+- **Acceptez** : Le modèle n'explique peut-être pas tout (variables manquantes)
+
+### Une variable a une p-value > 0.05. Je la garde ?
+
+**Non** en général :
+- Le coefficient n'est pas statistiquement significatif
+- Le modèle est plus robuste sans elle
+- Exception : Avis d'expert justifiant son importance
+
+### Combien de prédicteurs choisir ?
+
+- **Règle** : 1 prédicteur pour 10-20 observations
+- **Maximum** : n/10 (n = taille échantillon)
+- **Qualité > Quantité** : Préférez 5 variables fiables à 20 variables instables
+
+### Quand utiliser polynomial vs linéaire ?
+
+- **Linéaire** : Relation droite (premier choix)
+- **Polynomial** : Relation courbe évidente sur le scatter plot
+- **Attention** : Degré trop élevé = sur-apprentissage
+
+---
+
+## 📞 Support et Ressources
+
+### Documentation Détaillée
+- 📊 **[Corrélation](CORRELATION_GUIDE.md)** : Guide complet des coefficients de corrélation
+- 📈 **[Régression](REGRESSION_GUIDE.md)** : Modèles, interprétation, équations
+- 🔍 **[Outliers](OUTLIER_GUIDE.md)** : Méthodes de détection et gestion
+
+### Glossaire
+
+- **Corrélation** : Force et direction d'une relation entre deux variables
+- **Multicolinéarité** : Forte corrélation entre prédicteurs (problématique)
+- **P-value** : Probabilité que le résultat soit dû au hasard (< 0.05 = significatif)
+- **R²** : Proportion de variance expliquée par le modèle (0 à 1)
+- **Outlier** : Observation anormale qui s'écarte du reste des données
+- **Isolation Forest** : Algorithme de détection d'anomalies multivariées
+- **IQR** : Interquartile Range (Q3 - Q1), utilisé pour détecter les extrêmes
+
+---
+
+**Version** : 1.0
+**Dernière mise à jour** : Janvier 2026
+**Plateforme** : Application Web d'Analyse de Données
+
+🎓 **Bonnes analyses !**