Simulateur de Régression Logistique - Courbe Sigmoïde & Classification Binaire
Outil de régression logistique interactif pour visualiser la fonction sigmoïde, calculer les odds ratio et comprendre la classification binaire. Interface intuitive pour l’apprentissage du machine learning.
🧮 Simulateur de Régression Logistique
Explorez la courbe sigmoïde et calculez les probabilités de classification binaire
⚙️ Paramètres du Modèle
📊 Données d'Entrée
X₁ | X₂ | Probabilité | Classe |
---|---|---|---|
0.50 | 1 |
📈 Résultats et Métriques
📚 Interprétation des Résultats :
Odds Ratio : Indique combien les chances augmentent/diminuent pour une augmentation d'une unité de X₁.
Log-Odds : Logarithme naturel des odds, utilisé dans le calcul interne du modèle.
Classification : Classe prédite basée sur le seuil de classification choisi.
Confiance : Niveau de confiance basé sur la distance au seuil de 0.5.
Qu’est-ce que la Régression Logistique ?
La régression logistique est une méthode de machine learning très populaire. Elle permet de prédire des probabilités et de classer des données en deux catégories ou plus.
Contrairement à la régression linéaire, elle ne prédit pas des valeurs continues. Elle prédit plutôt la probabilité qu’un événement se produise.
Pourquoi Utiliser la Régression Logistique ?
- Simple à comprendre et à interpréter
- Rapide à calculer
- Efficace pour la classification
- Pas besoin de beaucoup de données
- Fonctionne bien même avec des relations non-linéaires
Comment Fonctionne la Régression Logistique ?
La Fonction Sigmoïde
Le cœur de la régression logistique est la fonction sigmoïde. Cette fonction a une forme de “S” caractéristique.
Formule de base :
p = 1 / (1 + e^(-z))
Où z = β₀ + β₁×X₁ + β₂×X₂
Les Éléments Clés
- β₀ (Intercept) : Point de départ de la courbe
- β₁, β₂ (Coefficients) : Influence de chaque variable
- X₁, X₂ : Variables d’entrée
- p : Probabilité de sortie (entre 0 et 1)
Types de Régression Logistique
1. Régression Logistique Binaire
- Classe les données en 2 catégories seulement
- Exemple : Email spam ou non-spam
- Résultat : 0 ou 1
2. Régression Logistique Multinomiale
- Classe les données en plusieurs catégories
- Exemple : Satisfaction client (faible, moyenne, élevée)
- Résultat : Classe A, B, ou C
3. Régression Logistique Ordinale
- Les catégories ont un ordre logique
- Exemple : Niveau d’éducation (primaire < secondaire < université)
Applications Pratiques
🏥 Médecine
- Diagnostic médical : Maladie présente ou absente
- Prédiction de risques : Probabilité de complications
- Efficacité des traitements
💰 Finance
- Détection de fraude : Transaction suspecte ou normale
- Crédit bancaire : Accordé ou refusé
- Investissements : Rentable ou risqué
📧 Marketing Digital
- Filtrage de spam : Email légitime ou indésirable
- Ciblage publicitaire : Client intéressé ou non
- Conversion : Achat probable ou improbable
🎓 Éducation
- Admission universitaire : Accepté ou refusé
- Prédiction de réussite : Étudiant à risque d’échec
- Orientation scolaire
Avantages et Inconvénients
✅ AVANTAGES
- Rapide à entraîner
- Interprétable facilement
- Probabilités en sortie
- Robuste aux valeurs aberrantes
- Pas de sur-apprentissage facilement
❌ INCONVÉNIENTS
- Suppose une relation linéaire entre variables et log-odds
- Sensible aux variables corrélées
- Nécessite beaucoup de données pour des résultats stables
Comment Interpréter les Résultats ?
Probabilité
- 0,8 = 80% de chance d’appartenir à la classe 1
- 0,2 = 20% de chance d’appartenir à la classe 1
Odds Ratio
- > 1 : Variable augmente la probabilité
- < 1 : Variable diminue la probabilité
- = 1 : Variable n’a pas d’effet
Seuil de Classification
- Généralement 0,5 (50%)
- Ajustable selon le contexte
- Plus bas = Plus de vrais positifs, plus de faux positifs
Utilisez Notre Simulateur
Notre simulateur interactif vous permet de :
- Ajuster les paramètres en temps réel
- Visualiser la courbe sigmoïde
- Tester différents seuils
- Voir la frontière de décision
- Calculer les probabilités
Expérimentez avec les données et observez comment les changements affectent les résultats !
Questions Fréquentes (FAQ)
Quelle est la différence entre régression linéaire et logistique ?
Régression linéaire prédit des valeurs continues (ex: prix d’une maison).
Régression logistique prédit des probabilités et fait de la classification (ex: email spam ou non).
La régression logistique utilise la fonction sigmoïde pour garder les résultats entre 0 et 1.
Comment choisir le bon seuil de classification ?
Le seuil par défaut est 0,5 (50%).
Ajustez selon vos besoins :
- Seuil plus bas (0,3) : Capture plus de cas positifs, mais plus de faux positifs
- Seuil plus haut (0,7) : Moins de faux positifs, mais peut manquer des vrais positifs
Conseil : Testez différents seuils avec votre simulateur pour voir l’impact !
Combien de données faut-il pour une régression logistique ?
Règle générale : Au moins 10 observations par variable.
Exemple :
- 2 variables → Minimum 20 observations
- 5 variables → Minimum 50 observations
Plus de données = Résultats plus fiables
Pour commencer l’apprentissage, même 20-30 points peuvent suffire avec notre simulateur.