Simulateur de Régression Logistique - Courbe Sigmoïde & Classification Binaire

Outil de régression logistique interactif pour visualiser la fonction sigmoïde, calculer les odds ratio et comprendre la classification binaire. Interface intuitive pour l’apprentissage du machine learning.

🧮 Simulateur de Régression Logistique

Explorez la courbe sigmoïde et calculez les probabilités de classification binaire

⚙️ Paramètres du Modèle

0.0
1.0
0.0
0.5
p = 1 / (1 + e^(-(0.0 + 1.0×X₁ + 0.0×X₂)))

📊 Données d'Entrée

X₁ X₂ Probabilité Classe
0.50 1
Fonction Sigmoïde : Cette courbe en forme de "S" transforme toute valeur réelle en probabilité entre 0 et 1. Plus la pente est raide, plus la transition entre les classes est nette.
Frontière de Décision : La ligne qui sépare les deux classes dans l'espace des caractéristiques. Les points au-dessus sont classés comme classe 1, ceux en dessous comme classe 0.
Distribution des Probabilités : Montre comment les probabilités sont réparties selon les valeurs d'entrée. Utile pour évaluer la confiance du modèle.

📈 Résultats et Métriques

0.50
Probabilité pour les valeurs actuelles
1.00
Odds Ratio
0.00
Log-Odds
Classe 1
Classification
Moyenne
Confiance

📚 Interprétation des Résultats :

Odds Ratio : Indique combien les chances augmentent/diminuent pour une augmentation d'une unité de X₁.

Log-Odds : Logarithme naturel des odds, utilisé dans le calcul interne du modèle.

Classification : Classe prédite basée sur le seuil de classification choisi.

Confiance : Niveau de confiance basé sur la distance au seuil de 0.5.

Qu’est-ce que la Régression Logistique ?

La régression logistique est une méthode de machine learning très populaire. Elle permet de prédire des probabilités et de classer des données en deux catégories ou plus.

Contrairement à la régression linéaire, elle ne prédit pas des valeurs continues. Elle prédit plutôt la probabilité qu’un événement se produise.

Pourquoi Utiliser la Régression Logistique ?

  • Simple à comprendre et à interpréter
  • Rapide à calculer
  • Efficace pour la classification
  • Pas besoin de beaucoup de données
  • Fonctionne bien même avec des relations non-linéaires

Comment Fonctionne la Régression Logistique ?

La Fonction Sigmoïde

Le cœur de la régression logistique est la fonction sigmoïde. Cette fonction a une forme de “S” caractéristique.

Formule de base :

p = 1 / (1 + e^(-z))

z = β₀ + β₁×X₁ + β₂×X₂

Les Éléments Clés

  1. β₀ (Intercept) : Point de départ de la courbe
  2. β₁, β₂ (Coefficients) : Influence de chaque variable
  3. X₁, X₂ : Variables d’entrée
  4. p : Probabilité de sortie (entre 0 et 1)

Types de Régression Logistique

1. Régression Logistique Binaire

  • Classe les données en 2 catégories seulement
  • Exemple : Email spam ou non-spam
  • Résultat : 0 ou 1

2. Régression Logistique Multinomiale

  • Classe les données en plusieurs catégories
  • Exemple : Satisfaction client (faible, moyenne, élevée)
  • Résultat : Classe A, B, ou C

3. Régression Logistique Ordinale

  • Les catégories ont un ordre logique
  • Exemple : Niveau d’éducation (primaire < secondaire < université)

Applications Pratiques

🏥 Médecine

  • Diagnostic médical : Maladie présente ou absente
  • Prédiction de risques : Probabilité de complications
  • Efficacité des traitements

💰 Finance

  • Détection de fraude : Transaction suspecte ou normale
  • Crédit bancaire : Accordé ou refusé
  • Investissements : Rentable ou risqué

📧 Marketing Digital

  • Filtrage de spam : Email légitime ou indésirable
  • Ciblage publicitaire : Client intéressé ou non
  • Conversion : Achat probable ou improbable

🎓 Éducation

  • Admission universitaire : Accepté ou refusé
  • Prédiction de réussite : Étudiant à risque d’échec
  • Orientation scolaire

Avantages et Inconvénients

✅ AVANTAGES

  • Rapide à entraîner
  • Interprétable facilement
  • Probabilités en sortie
  • Robuste aux valeurs aberrantes
  • Pas de sur-apprentissage facilement

❌ INCONVÉNIENTS

  • Suppose une relation linéaire entre variables et log-odds
  • Sensible aux variables corrélées
  • Nécessite beaucoup de données pour des résultats stables

Comment Interpréter les Résultats ?

Probabilité

  • 0,8 = 80% de chance d’appartenir à la classe 1
  • 0,2 = 20% de chance d’appartenir à la classe 1

Odds Ratio

  • > 1 : Variable augmente la probabilité
  • < 1 : Variable diminue la probabilité
  • = 1 : Variable n’a pas d’effet

Seuil de Classification

  • Généralement 0,5 (50%)
  • Ajustable selon le contexte
  • Plus bas = Plus de vrais positifs, plus de faux positifs

Utilisez Notre Simulateur

Notre simulateur interactif vous permet de :

  • Ajuster les paramètres en temps réel
  • Visualiser la courbe sigmoïde
  • Tester différents seuils
  • Voir la frontière de décision
  • Calculer les probabilités

Expérimentez avec les données et observez comment les changements affectent les résultats !

Questions Fréquentes (FAQ)

Quelle est la différence entre régression linéaire et logistique ?

Régression linéaire prédit des valeurs continues (ex: prix d’une maison).

Régression logistique prédit des probabilités et fait de la classification (ex: email spam ou non).

La régression logistique utilise la fonction sigmoïde pour garder les résultats entre 0 et 1.

Comment choisir le bon seuil de classification ?

Le seuil par défaut est 0,5 (50%).

Ajustez selon vos besoins :

  • Seuil plus bas (0,3) : Capture plus de cas positifs, mais plus de faux positifs
  • Seuil plus haut (0,7) : Moins de faux positifs, mais peut manquer des vrais positifs

Conseil : Testez différents seuils avec votre simulateur pour voir l’impact !

Combien de données faut-il pour une régression logistique ?

Règle générale : Au moins 10 observations par variable.

Exemple :

  • 2 variables → Minimum 20 observations
  • 5 variables → Minimum 50 observations

Plus de données = Résultats plus fiables

Pour commencer l’apprentissage, même 20-30 points peuvent suffire avec notre simulateur.