Ce projet vise à explorer, vectoriser, et regrouper les propositions citoyennes autour du tourisme durable en Ille-et-Vilaine à travers des techniques de traitement naturel du langage naturel (NLP).
- Suppression du bruit, lemmatisation, tokenisation.
- Retrait (ou non) des stop-words selon les besoins.
- Modèles Word2Vec : CBOW et Skip-Gram.
- Moyennage pour obtenir des embeddings de phrases.
- WordCloud personnalisé.
- Représentation 2D des mots/phrases avec t-SNE.
- K-means et CAH sur les embeddings de phrases.
- Étiquetage automatique des clusters.
- Application web Dash avec :
- WordCloud
- Sélection des modèles Word2Vec
- Visualisation interactive
- Clustering et thématiques
- Identifier les grands axes d’opinion citoyenne.
- Mettre en avant des tendances via la vectorisation sémantique.
- Proposer une interface interactive pour l'exploration thématique.
- Cloner le dépôt :
git clone [email protected]:GuillaumePoirier1996/tourisme-vert-ille-et-vilaine.git
cd tourisme-vert-ille-et-vilaine
- Créer un environnement :
conda env create -f environment.yml
conda activate tourisme_nlp
- Lancer les notebooks ou l'application Dash (à venir).
- WordCloud des termes les plus fréquents.
- Représentation 2D des mots et phrases.
- Clusters thématiques : mobilités, gestion des déchets, etc.
Ce projet est sous licence MIT.
Guillaume Poirier [email protected] 0785548643