2026-01-11 22:56:02 +01:00

10 KiB

Raw Blame History

Guide Utilisateur - Application d'Analyse de Données

📊 Bienvenue dans l'application d'analyse de données statistiques. Ce guide vous accompagne pas à pas dans l'utilisation des fonctionnalités principales.

🚀 Démarrage Rapide

1. Importer vos données

Formats supportés : CSV, Excel
Cliquez sur "Upload File" pour charger votre dataset
Les données sont automatiquement détectées et typées (numérique, catégorique, date)

2. Explorer vos données

Utilisez la table intelligente pour visualiser vos données
Les outliers potentiels sont indiqués par des cercles colorés :
- 🔴 Rouge : Outlier univarié (valeur extrême dans une colonne)
- 🟣 Violet : Outlier multivarié (anomalie globale)

3. Lancer une analyse

Cliquez sur le bouton "Analyse" dans la barre latérale pour accéder aux outils d'analyse.

📈 Fonctionnalités Principales

1. Matrice de Corrélation 🔗

Objectif : Comprendre les relations entre vos variables numériques.

Comment l'utiliser ?

Accédez à l'onglet "Corrélation"
Choisissez la méthode :
- Pearson : Relations linéaires (données normales)
- Spearman : Relations monotones (données non-paramétriques)
- Kendall : Similarité de rang (petits échantillons)
Interprétez la heatmap :
- Rouge foncé : Forte corrélation positive (0.7 à 1.0)
- Bleu foncé : Forte corrélation négative (-0.7 à -1.0)
- Bordure rouge ⚠️ : Multicolinéarité détectée (≥0.7)
Filtres avancés :
- Seuil minimum : Affichez seulement les corrélations > X
- Significatif seulement : p-value < 0.05

⚠️ Alertes Multicolinéarité

Si vous voyez une bordure rouge entre deux prédicteurs :

Ne les utilisez pas ensemble dans une régression
Choisissez la variable la plus corrélée avec votre cible
Exemple : Si Taille et Poids sont corrélés à 0.85, gardez-en un seul

Export

Cliquez sur "Exporter CSV" pour télécharger les résultats.

2. Régression Statistique 📉

Objectif : Modéliser et prédire une variable cible.

Étape 1 : Configuration du modèle

Dans le panneau de configuration avancée :

1. Choisissez votre type de modèle :

Linéaire : Relations linéaires simples
Logistique : Cible binaire (oui/non, 0/1)
Polynomial : Relations courbes (degrés 2-5)
Exponentielle : Croissance/décroissance exponentielle

2. Sélectionnez votre Variable Cible (Y) :

La variable que vous voulez expliquer/prédire
Pour linéaire/polynomial/exponentielle : doit être numérique continue
Pour logistique : doit être catégorique ou binaire

3. Choisissez vos Prédicteurs (X) :

Les variables qui expliquent Y
L'application recommande automatiquement les 5 meilleures variables basées sur leur importance
Désélectionnez les variables avec multicolinéarité

Étape 2 : Options avancées

Pour Polynomial :

Degré du polynôme : 2 (quadratique) à 5
- degré = + complexité (risque de sur-apprentissage)

Pour Linéaire/Polynomial :

Inclure interactions : Crée des termes croisés (x1*x2)
Utile pour capturer les effets combinés de variables

Étape 3 : Lancer l'analyse

Cliquez sur "Lancer l'Analyse" et attendez les résultats.

📊 Interpréter les Résultats de Régression

1. Métriques de Qualité

Métrique	Description	Valeur Idéale
R-Squared	Proportion de variance expliquée	0.7 - 1.0
Adj. R-Squared	R² ajusté pour le nombre de variables	Proche de R²
AIC / BIC	Critères d'information (plus bas = mieux)	Comparer modèles

R-Squared Guide

0.90 - 1.00 : Excellent ajustement
0.70 - 0.90 : Bon ajustement
0.50 - 0.70 : Ajustement modéré
< 0.50 : Faible ajustement

2. Coefficients du Modèle

Le tableau des coefficients indique l'impact de chaque variable :

Colonne	Signification
Variable	Nom de la variable ou constante
Coefficient	Impact moyen sur Y (si X augmente de 1)
P-Value	Significativité statistique
Fiabilité	FIABLE si p < 0.05

Comment lire les coefficients ?

Exemple : Y = 10 + 2.5*X1 - 1.3*X2

Constante (10) : Valeur de Y quand tous les X = 0
X1 (+2.5) : Si X1 augmente de 1, Y augmente de 2.5
X2 (-1.3) : Si X2 augmente de 1, Y diminue de 1.3

⚠️ Important : Un coefficient n'est fiable que si p-value < 0.05 (FIABLE)

3. Équation du Modèle

L'application génère automatiquement l'équation dans 3 formats :

LaTeX (Mathématique)

Pour vos rapports et publications :

y = 1.234567 + 2.345678x_{0} + 3.456789x_{0}^{2}

Python (Code)

Pour implémenter le modèle en Python :

y = 1.234567 + 2.345678*x0 + 3.456789*x0**2

Excel (Formule)

Pour utiliser dans Excel/Google Sheets :

=1.234567 + 2.345678*A1 + 3.456789*A1^2

Bouton "Copier" : Copiez l'équation directement dans votre presse-papier !

4. Graphiques de Diagnostic

Fit Plot (Régression univariée)

Points gris : Vos données réelles
Ligne bleue : Le modèle ajusté
Vérifiez que la ligne suit bien la tendance des points

Partial Regression Plot (Régression multivariée)

Montre l'effet isolé de chaque variable
Contrôle l'effet des autres variables
La pente = coefficient du modèle
Utilisez le sélecteur pour changer de variable

Parity Plot (Validation)

Diagonale rouge : Prédictions parfaites (Y = X)
Points violets : Vos observations
Plus les points sont proches de la diagonale = meilleur modèle
Écart à la diagonale = erreur de prédiction

🔍 Détection et Gestion des Outliers

Types d'Outliers

1. Outliers Univariés (IQR)

Détection basée sur l'écart interquartile :

Calcul : Q1 - 1.5×IQR (bas) / Q3 + 1.5×IQR (haut)
Indicateur : 🔴 Cercle rouge
Action : Vérifiez la valeur, corrigez ou excluez

2. Outliers Multivariés (Isolation Forest)

Détection basée sur les combinaisons de variables :

Algorithme : Isolation Forest
Indicateur : 🟣 Cercle violet
Action : Anomalie globale à investiguer

Processus d'Exclusion

Identifiez les outliers dans la table
Survolez pour voir le détail (raison)
Cliquez sur l'outlier pour le marquer
Réexécutez l'analyse sans ces points

Note : Les outliers exclus sont mémorisés et ne réapparaissent pas.

💡 Bonnes Pratiques

Avant la Régression

✅ TOUJOURS vérifier la matrice de corrélation ✅ Éviter la multicolinéarité (corrélations ≥ 0.7 entre prédicteurs) ✅ Choisir des prédicteurs corrélés avec la cible ✅ Exclure les outliers extrêmes

Pendant l'Analyse

✅ Commencer par un modèle linéaire simple ✅ Augmenter la complexité progressivement (polynomial, interactions) ✅ Surveiller le R² ajusté (il diminue si variables inutiles) ✅ Vérifier les p-values (< 0.05 = fiable)

Après l'Analyse

✅ Valider avec le Parity Plot (points près de la diagonale) ✅ Interpréter les coefficients (sens et magnitude) ✅ Exporter l'équation pour utilisation future ✅ Documenter les décisions (variables exclues, outliers retirés)

🎯 Cas d'Usage

Exemple 1 : Prédire le Prix Immobiliers

Données : Prix, Surface, Chambres, Quartier, Année

Corrélation : Prix vs Surface (forte corrélation)
Régression linéaire :
- Y = Prix
- X = Surface, Chambres
- Équation : Prix = 50000 + 2500*Surface + 15000*Chambres
Utilisation : Prédire le prix d'un appartement de 60m² avec 2 chambres
- Prix = 50000 + 2500*60 + 15000*2 = 215000€

Exemple 2 : Probabilité de Réclamation

Données : Âge, Montant, Historique, Réclamation (oui/non)

Régression logistique :
- Y = Réclamation (0/1)
- X = Âge, Montant, Historique
Résultat : Probabilité de réclamation = f(Âge, Montant, Historique)

Exemple 3 : Relation Courbe (Ventes vs Publicité)

Données : Ventes, Budget_Pub, Concurrence

Corrélation : Forte mais non-linéaire
Régression polynomial (degré 2) :
- Y = Ventes
- X = Budget_Pub
- Équation : Ventes = 1000 + 5*Budget - 0.01*Budget²
Interprétation : Rendements décroissants après un certain budget

❓ Questions Fréquentes

Mon R² est faible (< 0.5). Que faire ?

Vérifiez : Avez-vous les bons prédicteurs ?
Testez : Ajoutez des variables ou essayez polynomial
Nettoyez : Supprimez les outliers
Acceptez : Le modèle n'explique peut-être pas tout (variables manquantes)

Une variable a une p-value > 0.05. Je la garde ?

Non en général :

Le coefficient n'est pas statistiquement significatif
Le modèle est plus robuste sans elle
Exception : Avis d'expert justifiant son importance

Combien de prédicteurs choisir ?

Règle : 1 prédicteur pour 10-20 observations
Maximum : n/10 (n = taille échantillon)
Qualité > Quantité : Préférez 5 variables fiables à 20 variables instables

Quand utiliser polynomial vs linéaire ?

Linéaire : Relation droite (premier choix)
Polynomial : Relation courbe évidente sur le scatter plot
Attention : Degré trop élevé = sur-apprentissage

📞 Support et Ressources

Documentation Détaillée

📊 Corrélation : Guide complet des coefficients de corrélation
📈 Régression : Modèles, interprétation, équations
🔍 Outliers : Méthodes de détection et gestion

Glossaire

Corrélation : Force et direction d'une relation entre deux variables
Multicolinéarité : Forte corrélation entre prédicteurs (problématique)
P-value : Probabilité que le résultat soit dû au hasard (< 0.05 = significatif)
R² : Proportion de variance expliquée par le modèle (0 à 1)
Outlier : Observation anormale qui s'écarte du reste des données
Isolation Forest : Algorithme de détection d'anomalies multivariées
IQR : Interquartile Range (Q3 - Q1), utilisé pour détecter les extrêmes

Version : 1.0 Dernière mise à jour : Janvier 2026 Plateforme : Application Web d'Analyse de Données

🎓 Bonnes analyses !

10 KiB Raw Blame History Unescape Escape