Expert en data science passionné et certifié, fort de 25 ans d'expérience en gestion des systèmes et réseaux, spécialisé en machine learning, MLOps et traitement de données.
Allie expertise technique et sens de l’analyse pour concevoir des outils à forte valeur ajoutée.


Formation


Expert en data science - OpenClassrooms (Certification professionnelle RNCP niveau 7)
Réalisation de 10 projets professionnalisants:
Machine learning et feature engineering
Conception, entrainement et évaluation de modèles supervisés (classifications, scoring) et non supervisés (clustering), création de variables pertinentes et explicabilité des modèles.
Traitements de données structurées
Prétraitement et modélisation de données textuelles et d'images.
Gestion du cycle de vie des modèles et MLOps
Communication et pilotage de projets Data
Cadrage global, planification, analyse des risques conformités réglementaires et coordination.



Projets réalisés


Cadrage d'un projet IA de recommandation d'articles vestimentaires

Présentation d'avant projet visant à définir les contours d'une application de recommandation d'articles vestimentaires, le but étant de convaincre le COMEX de financer et d'approuver le projet en démontrant sa viabilité et sa rentabilité à court ou moyen terme.
Création du backlog des user stories, estimation des charges et coûts, analyse des enjeux légaux et éthiques, registre des traitements des données personnelles, analyse des risques et plan d’atténuation.

Utilisation de la méthodologie Agile SCRUM et des technologies Azure de Microsoft.


Création d’une infrastructure Big Data hautement scalable sur AWS

Mise en place une infrastructure Big Data scalable sur le cloud AWS pour optimiser le traitement d’images de fruits, tout en assurant performance, conformité RGPD et maîtrise des coûts.

Utilisation des technologies Cloud Computing AWS (EMR, S3, IAM), PySpark, Machine Learning, TenserFlow et PCA.


Évaluation comparative de techniques NLP classiques et récentes via un POC

Ce projet est une veille technique qui évalue une technique récente en NLP via un Proof of Concept (POC) et la compare à une méthode classique pour mesurer ses performances en vue d'une intégration potentielle dans les projets de l’entreprise.

Utilisation des technologies NLP, Naïve Bayes, CNN.


Dashboard explicatif pour la transparence des décisions de crédit en rendez-vous client

Développement d'un dashboard interactif pour que les chargés de relation client puissent expliquer de façon la plus transparente possible les décisions d’octroi de crédit, lors de rendez-vous avec les emprunteurs.

Réalisation de data visualization, tests unitaires avec Pytest, utilisation de FastAPI, Streamlit, Cloud Deployment, Sklearn.


Modèle de scoring de risque de crédit avec monitoring MLOps et détection de Data Drift

L’objectif de ce projet a été de concevoir un algorithme de classification capable de prédire le risque de défaut de remboursement de prets des clients d'une banque. Puis d’industrialiser son déploiement via une approche MLOps, de réaliser des tests uniatires, et une détection de data drift.
Thématiques abordées: Scoring, Apprentissage supervisé, Interprétabilité.
Utilisation de Mlflow, FastAPI, Streamlit, Pytest, Evidently, GitHub Actions, Cloud Deployment, pipeline MLOps, Monitoring MLOps.


Classification automatique d’articles e-commerce à partir de données textuelles et visuelles

Réaliser une classification automatique des articles e-commerce à partir de textes et d'images, en utilisant un modèle CNN et NLP. Extraire des données via une API.
Thématiques abordées: NLP, Computer vision, Deep Learning, Classification supervisée, Réduction de dimension.
Utilisation de Sklearn, Bag-of-Words, TF-IDF, Word2Vec, BERT, Universal Sentence Encoder, SIFT, ORB, CNN(TensorFlow/Keras), PyTorch, OpenCV, PCA, t-SNE, API REST.


Segmentation client data-driven pour optimiser les campagnes marketing d’Olist

Pour réaliser des campagnes de communication efficientes, une segmentation de clientèle fournissant une compréhension de sa typologie est indispensable. Cette typologie va évoluer au cours du temps et il sera bon de la revoir en fonction de critère de stabilité.
Thématiques abordées: Segmentation de clientèle, Classification non supervisée, cycle de vie.
Utilisation de SQL, RFM, Clustering, K-Means, DBSCAN, Adjusted Rand Index (ARI).


Prédiction de la consommation énergétique des bâtiments pour appuyer la transition carbone de la ville de Seattle

Peut on prédire la consommation énergétique et les émissions de CO2 des bâtiments de Seattle afin d’aider la ville de Seattle à optimiser ses stratégies de réduction d’émissions.
Thématiques abordées: Machine learning supervisé, Feature engineering.
Utilisation de feature engineering (normalisation, transformation des variables), Modèle baseline, Random Forest, Gradient Boosting, PCA, Grid search, Shap.


Complétion automatique des données nutritionnelles manquantes dans la base Open Food Facts

une base de donnée libre et ouverte sur les produits alimentaires peut être assez brute. L'enjeu consiste ici, à la nettoyer, et à visualiser de l'information pertinente séléctionnée afin de la rendre plus accessible.
Thématiques abordées: Nettoyage des données - Analyse multivariée.
Utilisation de Python, Pandas, IQR, écart-type, moyenne, médiane, KNN, régression linéaire, analyse univariée et bivariée, matrices de corrélation, PCA, ANOVA, principes du RGPD.


Analyse des données mondiales pour soutenir l’expansion internationale d’une start-up EdTech

la base de donnée libre de la banque mondiale sur l'accès à l'éducation peut elle informer les décisions d'ouverture vers de nouveaux pays d'un organisme de formation
Thématiques abordées: Analyse Exploratoire et Visualisation.
Utilisation de Python, Jupyter Notebook, Pandas, Analyse de données, Visualisation.


Maquettes accessibles


Lien Description
Front-end Dashboard Démonstration du dashboard de scoring crédit réalisé avec Streamlit. (détail du projet).
Api Dashboard Documentation de l'api du dashboard du scoring crédit réalisé avec FastAPI. (détail du projet).