Initial commit

This commit is contained in:
2026-01-11 22:04:05 +01:00
commit 87a8b6b844
549 changed files with 96211 additions and 0 deletions

View File

@@ -0,0 +1,328 @@
# Guide Utilisateur - Application d'Analyse de Données
📊 **Bienvenue** dans l'application d'analyse de données statistiques. Ce guide vous accompagne pas à pas dans l'utilisation des fonctionnalités principales.
---
## 🚀 Démarrage Rapide
### 1. Importer vos données
- **Formats supportés** : CSV, Excel
- **Cliquez sur** "Upload File" pour charger votre dataset
- Les données sont automatiquement détectées et typées (numérique, catégorique, date)
### 2. Explorer vos données
- Utilisez la **table intelligente** pour visualiser vos données
- Les outliers potentiels sont indiqués par des **cercles colorés** :
- 🔴 **Rouge** : Outlier univarié (valeur extrême dans une colonne)
- 🟣 **Violet** : Outlier multivarié (anomalie globale)
### 3. Lancer une analyse
Cliquez sur le bouton **"Analyse"** dans la barre latérale pour accéder aux outils d'analyse.
---
## 📈 Fonctionnalités Principales
### 1. Matrice de Corrélation 🔗
**Objectif** : Comprendre les relations entre vos variables numériques.
#### Comment l'utiliser ?
1. **Accédez à l'onglet "Corrélation"**
2. **Choisissez la méthode** :
- **Pearson** : Relations linéaires (données normales)
- **Spearman** : Relations monotones (données non-paramétriques)
- **Kendall** : Similarité de rang (petits échantillons)
3. **Interprétez la heatmap** :
- **Rouge foncé** : Forte corrélation positive (0.7 à 1.0)
- **Bleu foncé** : Forte corrélation négative (-0.7 à -1.0)
- **Bordure rouge** ⚠️ : Multicolinéarité détectée (≥0.7)
4. **Filtres avancés** :
- **Seuil minimum** : Affichez seulement les corrélations > X
- **Significatif seulement** : p-value < 0.05
#### ⚠️ Alertes Multicolinéarité
Si vous voyez une **bordure rouge** entre deux prédicteurs :
- **Ne les utilisez pas ensemble** dans une régression
- Choisissez la variable la plus corrélée avec votre cible
- Exemple : Si `Taille` et `Poids` sont corrélés à 0.85, gardez-en un seul
#### Export
Cliquez sur **"Exporter CSV"** pour télécharger les résultats.
---
### 2. Régression Statistique 📉
**Objectif** : Modéliser et prédire une variable cible.
#### Étape 1 : Configuration du modèle
Dans le panneau de configuration avancée :
**1. Choisissez votre type de modèle** :
- **Linéaire** : Relations linéaires simples
- **Logistique** : Cible binaire (oui/non, 0/1)
- **Polynomial** : Relations courbes (degrés 2-5)
- **Exponentielle** : Croissance/décroissance exponentielle
**2. Sélectionnez votre Variable Cible (Y)** :
- La variable que vous voulez expliquer/prédire
- Pour linéaire/polynomial/exponentielle : doit être **numérique continue**
- Pour logistique : doit être **catégorique ou binaire**
**3. Choisissez vos Prédicteurs (X)** :
- Les variables qui expliquent Y
- L'application recommande automatiquement les **5 meilleures variables** basées sur leur importance
- Désélectionnez les variables avec multicolinéarité
#### Étape 2 : Options avancées
**Pour Polynomial** :
- **Degré du polynôme** : 2 (quadratique) à 5
- + degré = + complexité (risque de sur-apprentissage)
**Pour Linéaire/Polynomial** :
- **Inclure interactions** : Crée des termes croisés (x1*x2)
- Utile pour capturer les effets combinés de variables
#### Étape 3 : Lancer l'analyse
Cliquez sur **"Lancer l'Analyse"** et attendez les résultats.
---
## 📊 Interpréter les Résultats de Régression
### 1. Métriques de Qualité
| Métrique | Description | Valeur Idéale |
|----------|-------------|---------------|
| **R-Squared** | Proportion de variance expliquée | 0.7 - 1.0 |
| **Adj. R-Squared** | R² ajusté pour le nombre de variables | Proche de R² |
| **AIC / BIC** | Critères d'information (plus bas = mieux) | Comparer modèles |
#### R-Squared Guide
- **0.90 - 1.00** : Excellent ajustement
- **0.70 - 0.90** : Bon ajustement
- **0.50 - 0.70** : Ajustement modéré
- **< 0.50** : Faible ajustement
---
### 2. Coefficients du Modèle
Le tableau des coefficients indique l'impact de chaque variable :
| Colonne | Signification |
|---------|---------------|
| **Variable** | Nom de la variable ou constante |
| **Coefficient** | Impact moyen sur Y (si X augmente de 1) |
| **P-Value** | Significativité statistique |
| **Fiabilité** | FIABLE si p < 0.05 |
#### Comment lire les coefficients ?
**Exemple** : `Y = 10 + 2.5*X1 - 1.3*X2`
- **Constante (10)** : Valeur de Y quand tous les X = 0
- **X1 (+2.5)** : Si X1 augmente de 1, Y augmente de 2.5
- **X2 (-1.3)** : Si X2 augmente de 1, Y diminue de 1.3
⚠️ **Important** : Un coefficient n'est fiable que si **p-value < 0.05** (FIABLE)
---
### 3. Équation du Modèle
L'application génère automatiquement l'équation dans 3 formats :
#### LaTeX (Mathématique)
Pour vos rapports et publications :
```
y = 1.234567 + 2.345678x_{0} + 3.456789x_{0}^{2}
```
#### Python (Code)
Pour implémenter le modèle en Python :
```python
y = 1.234567 + 2.345678*x0 + 3.456789*x0**2
```
#### Excel (Formule)
Pour utiliser dans Excel/Google Sheets :
```
=1.234567 + 2.345678*A1 + 3.456789*A1^2
```
**Bouton "Copier"** : Copiez l'équation directement dans votre presse-papier !
---
### 4. Graphiques de Diagnostic
#### Fit Plot (Régression univariée)
- **Points gris** : Vos données réelles
- **Ligne bleue** : Le modèle ajusté
- Vérifiez que la ligne suit bien la tendance des points
#### Partial Regression Plot (Régression multivariée)
- Montre l'**effet isolé** de chaque variable
- Contrôle l'effet des autres variables
- La **pente** = coefficient du modèle
- Utilisez le sélecteur pour changer de variable
#### Parity Plot (Validation)
- **Diagonale rouge** : Prédictions parfaites (Y = X)
- **Points violets** : Vos observations
- Plus les points sont proches de la diagonale = meilleur modèle
- **Écart à la diagonale** = erreur de prédiction
---
## 🔍 Détection et Gestion des Outliers
### Types d'Outliers
#### 1. Outliers Univariés (IQR)
Détection basée sur l'écart interquartile :
- **Calcul** : Q1 - 1.5×IQR (bas) / Q3 + 1.5×IQR (haut)
- **Indicateur** : 🔴 Cercle rouge
- **Action** : Vérifiez la valeur, corrigez ou excluez
#### 2. Outliers Multivariés (Isolation Forest)
Détection basée sur les combinaisons de variables :
- **Algorithme** : Isolation Forest
- **Indicateur** : 🟣 Cercle violet
- **Action** : Anomalie globale à investiguer
### Processus d'Exclusion
1. **Identifiez** les outliers dans la table
2. **Survolez** pour voir le détail (raison)
3. **Cliquez sur l'outlier** pour le marquer
4. **Réexécutez** l'analyse sans ces points
**Note** : Les outliers exclus sont mémorisés et ne réapparaissent pas.
---
## 💡 Bonnes Pratiques
### Avant la Régression
**TOUJOURS** vérifier la matrice de corrélation
**Éviter** la multicolinéarité (corrélations ≥ 0.7 entre prédicteurs)
**Choisir** des prédicteurs corrélés avec la cible
**Exclure** les outliers extrêmes
### Pendant l'Analyse
**Commencer** par un modèle linéaire simple
**Augmenter** la complexité progressivement (polynomial, interactions)
**Surveiller** le R² ajusté (il diminue si variables inutiles)
**Vérifier** les p-values (< 0.05 = fiable)
### Après l'Analyse
**Valider** avec le Parity Plot (points près de la diagonale)
**Interpréter** les coefficients (sens et magnitude)
**Exporter** l'équation pour utilisation future
**Documenter** les décisions (variables exclues, outliers retirés)
---
## 🎯 Cas d'Usage
### Exemple 1 : Prédire le Prix Immobiliers
**Données** : Prix, Surface, Chambres, Quartier, Année
1. **Corrélation** : Prix vs Surface (forte corrélation)
2. **Régression linéaire** :
- Y = Prix
- X = Surface, Chambres
- Équation : `Prix = 50000 + 2500*Surface + 15000*Chambres`
3. **Utilisation** : Prédire le prix d'un appartement de 60m² avec 2 chambres
- `Prix = 50000 + 2500*60 + 15000*2 = 215000€`
### Exemple 2 : Probabilité de Réclamation
**Données** : Âge, Montant, Historique, Réclamation (oui/non)
1. **Régression logistique** :
- Y = Réclamation (0/1)
- X = Âge, Montant, Historique
2. **Résultat** : Probabilité de réclamation = f(Âge, Montant, Historique)
### Exemple 3 : Relation Courbe (Ventes vs Publicité)
**Données** : Ventes, Budget_Pub, Concurrence
1. **Corrélation** : Forte mais non-linéaire
2. **Régression polynomial (degré 2)** :
- Y = Ventes
- X = Budget_Pub
- Équation : `Ventes = 1000 + 5*Budget - 0.01*Budget²`
3. **Interprétation** : Rendements décroissants après un certain budget
---
## ❓ Questions Fréquentes
### Mon R² est faible (< 0.5). Que faire ?
- **Vérifiez** : Avez-vous les bons prédicteurs ?
- **Testez** : Ajoutez des variables ou essayez polynomial
- **Nettoyez** : Supprimez les outliers
- **Acceptez** : Le modèle n'explique peut-être pas tout (variables manquantes)
### Une variable a une p-value > 0.05. Je la garde ?
**Non** en général :
- Le coefficient n'est pas statistiquement significatif
- Le modèle est plus robuste sans elle
- Exception : Avis d'expert justifiant son importance
### Combien de prédicteurs choisir ?
- **Règle** : 1 prédicteur pour 10-20 observations
- **Maximum** : n/10 (n = taille échantillon)
- **Qualité > Quantité** : Préférez 5 variables fiables à 20 variables instables
### Quand utiliser polynomial vs linéaire ?
- **Linéaire** : Relation droite (premier choix)
- **Polynomial** : Relation courbe évidente sur le scatter plot
- **Attention** : Degré trop élevé = sur-apprentissage
---
## 📞 Support et Ressources
### Documentation Détaillée
- 📊 **[Corrélation](CORRELATION_GUIDE.md)** : Guide complet des coefficients de corrélation
- 📈 **[Régression](REGRESSION_GUIDE.md)** : Modèles, interprétation, équations
- 🔍 **[Outliers](OUTLIER_GUIDE.md)** : Méthodes de détection et gestion
### Glossaire
- **Corrélation** : Force et direction d'une relation entre deux variables
- **Multicolinéarité** : Forte corrélation entre prédicteurs (problématique)
- **P-value** : Probabilité que le résultat soit dû au hasard (< 0.05 = significatif)
- **R²** : Proportion de variance expliquée par le modèle (0 à 1)
- **Outlier** : Observation anormale qui s'écarte du reste des données
- **Isolation Forest** : Algorithme de détection d'anomalies multivariées
- **IQR** : Interquartile Range (Q3 - Q1), utilisé pour détecter les extrêmes
---
**Version** : 1.0
**Dernière mise à jour** : Janvier 2026
**Plateforme** : Application Web d'Analyse de Données
🎓 **Bonnes analyses !**