Ce travail s'inspire du cours Openclassrooms
- Définir le problème
- Préparer les données
- Entrainer une régression logistique , une SVM, ACP
- Améliorer les modèles
On cherche à déterminer si un champignon est vénéneux ou sans danger en fonction de ces caracteristiques.
Le jeu de données comprend des descriptions d'échantillons hypothétiques à 23 espèces de champions. lien du dataset kaggle
- faire une analyse exploratoire et nettoyage des données;
- Séparer le dataset en deux, X (features) et y (label);
- Créer un jeu de données test et train.
Nous modélisons notre problème de classification avec une regression logistique , une SVM et aller plus loin en réduction de dimension.
L'entraînement du classifieur nous donne une précison de 0.95
Après la recherche de meilleurs Hyperparamètres avec GridSearchCV , nous obtenons une précision de 0.96: le modèle peut faire des prédictions avec 20 % moins d'erreur.
L'entraînement du classifieur nous donne une précision de 0.94.
Etait-il pertinent de prendre toutes les dimentions à notre disposition? Nous allons y répondre en faisant une analyse en composante principale (ACP).
Les corrélations
On remarque qu'il y'a des features fortements corrélés comme gill-attachment et veil-color.
Eboulis des valeurs propres
L'analyse en composante principale nous indique qu'on aurait pu réduire nos features en 6 composantes principales pour la modélisation.