Description

L'un des plus grands défis actuels est de savoir comment traiter correctement les données qui nous entourent.

Mon parcours professionnel m'a permis de combiner des connaissances en software engineering et des capacités d'analyse de données. Cela m'a également permis, au fil des ans, de contribuer au développement de divers pipelines IA pour de grandes entreprises dans les domaines de l'énergie et de la finance.

Langues

Français
Bilingue ou natif
Anglais
Capacité professionnelle complète

Préférences en matière de lieu de travail

En télétravail uniquement

Travaille majoritairement à distance

Crédit Agricole SA
Data Engineer / MLOps Engineer
BANQUE & ASSURANCES
octobre 2021 - août 2022 (11 mois)
Montrouge, France
Contexte:
Mettre en oeuvre des solutions pour aider les data scientists à déployer des modèles ML distribués en production.

Missions:
- Développement de code élégant et simple pour des architectures et des applications performantes, fiables et maintenables.
- Développement, packaging et déploiement de la solution interne d’AutoML distribuée avec Spark/H2O.aio
- Conception et développement d’un template PySpark qui permet d’automatiser le packaging des dépendances et le déploiement des jobs Spark sur des plateformes HDP isolées avec (Shell/PEX (cluster pack)/Gitlab CI/CD)
- Mise en place et maintenance des chaînes CI/CD (Gitlab CI)
- Mise en place de tests continus, automatisés (unitaire, d'intégration, de non régression et de charge) et de coverage.
- Migration des assets de production Spark 2.2 -> 2.4, HDP -> CDP
- Débogage et optimisations des jobs Spark dans HDP
- Développement dans un environnement agile
Python PySpark Gitlab CI Docker Hadoop Pandas API UNIX
EDF SA
Data Engineer / DataOps
ENERGIE
septembre 2022 - septembre 2023 (1 an et 1 mois)
Puteaux, France
Kubernetes OpenShift Docker SQL PostgreSQL Spark PySpark Git Gitlab CI/CD Airflow FastAPI Python Linux Hive Big Data Hadoop HDFS
BNP PARIBAS
Data Scientist / Engineer
BANQUE & ASSURANCES
septembre 2018 - septembre 2021 (3 ans)
Paris, France
Contexte:
Assurer une R&D activable en Data Science et IA :
-Rechercher, tester et valider l'apport d'approches innovantes (NLP, Computer Vision, Speech Recognition, Boosting) sur des problématiques métiers Data Driven (détection de la fraude, recherche sémantique, scores d'appétence, efficacité opérationnelle, interprétation de modèles)
-Contribuer le cas échéant à mettre en production des solutions adéquates répondant à ces problématiques grâce à la plateforme interne d'industrialisation en production de projets Python intégrant des principes BizOps et des capacités d'exposition étendues : Batch, Streaming, API, Webapp

Missions
- Développement de code élégant et simple pour des architectures et des applications performantes, fiables et maintenables.
- Mise en place et maintenance de la chaîne CI/CD
- Mise en place de test et de coverage sur l’ensemble de l’architecture logicielle
- Mise en production et run de pipeline machine learning en Python
- Monitoring des modèles en production avec des webapp (streamlit/dash)
- Entraînement et déploiement en production d'un modèle de détection d'usurpation d'identité dans le cadre de la lutte contre la fraude:
-> Extraction et transformation d'environ 700 Gb de données avec PySpark
-> Inférence en moins de 500 ms avec un modèle type boosting
-> Inférence en streaming (1 million d'events par jour)
- Mise en production d'un modèle de détection de fraude chèque:
-> Conversion d'un code SQL en Python pour pouvoir inférer en quasi temps réel (batch vers micro batch processing)
- Optimisation : conception d'un solveur python (solution interne) permettant de résoudre un programme d'optimisation sous un grand nombre de contraintes non linéaires dans le cadre de sollicitations marketing
- Extraction, manipulation, valorisation & visualisation d'un grand volume de données (> 700 gb)
Python Spark Machine learning Jenkins SQL Cassandra Git Pandas Pytest Apache Kafka