Skip to content

seriamedard/Mushroom-Classification

Repository files navigation

Mushroom-Classification : régression logistique, SVM, ACP

Ce travail s'inspire du cours Openclassrooms

Objectifs

  1. Définir le problème
  2. Préparer les données
  3. Entrainer une régression logistique , une SVM, ACP
  4. Améliorer les modèles

1. Définir le problème

On cherche à déterminer si un champignon est vénéneux ou sans danger en fonction de ces caracteristiques.

Dataset

Le jeu de données comprend des descriptions d'échantillons hypothétiques à 23 espèces de champions. lien du dataset kaggle

2. Préparer les données

  • faire une analyse exploratoire et nettoyage des données;
  • Séparer le dataset en deux, X (features) et y (label);
  • Créer un jeu de données test et train.

3. Entrainer une régression logistique , une SVM, ACP

Nous modélisons notre problème de classification avec une regression logistique , une SVM et aller plus loin en réduction de dimension.

Régression logistique

L'entraînement du classifieur nous donne une précison de 0.95

Après la recherche de meilleurs Hyperparamètres avec GridSearchCV , nous obtenons une précision de 0.96: le modèle peut faire des prédictions avec 20 % moins d'erreur.

SVM

L'entraînement du classifieur nous donne une précision de 0.94.

ACP

Etait-il pertinent de prendre toutes les dimentions à notre disposition? Nous allons y répondre en faisant une analyse en composante principale (ACP).

Les corrélations

On remarque qu'il y'a des features fortements corrélés comme gill-attachment et veil-color.

Eboulis des valeurs propres

L'analyse en composante principale nous indique qu'on aurait pu réduire nos features en 6 composantes principales pour la modélisation.

About

classification using logistic regression and SVM

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published