Description

Je conçois et déploie des plateformes data complexes dans des environnements d'entreprise contraints — réglementés, air-gappés, multi-équipes.

Mon terrain : IaC Ansible/Terraform, orchestration Kubernetes/OpenShift, intégration SSO/OIDC, et pipelines à grande échelle. Dernièrement, déploiement complet d'une plateforme Dataiku DSS 6 nœuds (zero touch, 15 rôles Ansible) avec GPU H100/H200, configurations MIG avancées, et Spark distribué chez un grand compte énergie.

J'intègre les outils IA dans le cycle de développement — pas comme gadget, mais pour réduire le temps entre la conception et la livraison opérationnelle.

Domaines d’expertise

Langues

Français
Bilingue ou natif
Anglais
Bilingue ou natif
Arabe
Bilingue ou natif

Préférences en matière de lieu de travail

En télétravail uniquement

Travaille majoritairement à distance

EDF SA
Data Platform Engineer
ENERGIE
décembre 2025 - Aujourd'hui (6 mois)
Paris, France
Conception et déploiement IaC complet d'une plateforme Dataiku DSS 14.4 avec 6 nœuds de production (Design, Automation, Govern, Deployer) en environnement d'entreprise isolé (sans accès internet, proxy corporate, double VLAN) :
Développement de 15 rôles Ansible et 1 module custom orchestrant un pipeline de déploiement à 15 phases avec restauration complète en une commande — zéro configuration manuelle.
Maîtrise approfondie de Dataiku DSS : configuration avancée via API (SSO, Spark, connexions, governance),
Architecture de permissions multi-couches par entité métier : accès par nœud (Keycloak), permissions granulaires (29 flags par groupe), ACL par connexion, et droits par projet — avec isolation des dossiers projets et traçabilité des coûts de calcul (chargeback)
Développement d'une webapp d'administration complète (Vue 3/TypeScript + Flask) : gestion des utilisateurs/groupes/entités, onboarding unitaire et bulk CSV, auto-logout Keycloak à la modification des droits.
Mise en place des profils d'exécution conteneurisés (CPU, GPU MIG 1g/3g/7g) et build d'images multi-étapes optimisées (GPU/CUDA, OpenCV, Spark, Python/R) pour 50+ data scientists.
Intégration Kubernetes (OpenShift) avec GPU NVIDIA H100 et Spark distribué, authentification SSO/OIDC via Keycloak avec provisionnement automatique et LDAP/MFA.
Résolution d'incidents d'infrastructure complexes : connectivité pod-VM cross-VLAN, proxy 3 couches (Shell/Java/Application), Podman rootless sur VMs verrouillées.
OpenShift Dataiku Podman Keycloak Architecture
EDF SA
Data/DevOps Engineer
ENERGIE
mai 2022 - décembre 2025 (3 ans et 7 mois)
Paris, France
Construction et gestion de la plateforme data pour les équipes datascience d'EDF, de l'infrastructure au delivery des use cases :

DevOps & Plateforme (2022 – 2025) :
Déploiement et gestion d'un cluster Docker Swarm (3 nœuds compute) et automatisation de la plateforme data complète (Airflow 2.10→3.1, Traefik, Trino) sur OpenShift et VMs
Build d'images Docker optimisées, multi-étapes et sécurisées (GPU/OpenCV, dépendances datascience) pour l'ensemble des équipes
Introduction et migration des outils de packaging Python : Poetry → uv/ruff, standardisation des pratiques de développement
Migration des DAGs Airflow lors du passage 2.10 → 3.1

Data Engineering (2022 – 2025) :
Migration des projets datascience de Spark/Hadoop vers Python/Polars/Oracle SQL, réduisant les coûts de ressources de plus de 40%.
Conception et développement de 12+ API REST pour exposer et industrialiser des use cases datascience (FastAPI/Dash/Traefik)
Développement de connecteurs et bibliothèque interne d'ingestion de données avec API unifiée (Python/Polars/Pandas/SQLAlchemy)
Formation des data scientists sur les bonnes pratiques d'engineering et d'optimisation

Pipelines de données R&D (2024 – 2025) :

Traitement de téraoctets de données scientifiques multimodales (imagerie, séquençage, données structurées) pour un système d'aide à la décision R&D
Optimisation et parallélisation de pipelines de traitement à grande échelle sur AWS (EMR, S3, ECR, Airflow, Terraform)
Refactoring de pipelines legacy vers Apache Airflow, monitoring Grafana/Prometheus
Anonymisation complète multi-modale (images, texte, audio) conformité RGPD/CNIL
Python Polars Docker SQL Agentic AI
Groupe Crédit Agricole (AE)
Data & AI Engineer
BANQUE & ASSURANCES
octobre 2019 - avril 2022 (2 ans et 7 mois)
Paris, France
Au sein du Datalab de Crédit Agricole, développement et industrialisation de solutions Data & IA pour les opérations bancaires :

Conception et mise en œuvre d'API REST pour la détection de fraude et l'extraction de données OCR, accélérant le processus KYC pour les banques régionales du Crédit Agricole à travers la France (Python/FastAPI/Tesseract)
Contribution au développement et déploiement d'une solution interne d'AutoML distribuée exploitant Spark et H2O.ai
Optimisation des performances et débogage des jobs Spark au sein d'un cluster Cloudera, maximisant l'efficacité opérationnelle
Création d'un Template PySpark pour automatiser le packaging et le déploiement des jobs Spark sur des plateformes Cloudera isolées (Shell, PEX, GitLab CI/CD)
Conception et animation d'ateliers MLOps, industrialisation et systèmes distribués
Test de bibliothèques GPU (PySpark/spark-rapids, cuDF, H2O Sparkling Water) sur cluster Kubernetes GPU
PySpark Python Cloudera MLOps Kubernetes