Description

J’aide les entreprises à centraliser, fiabiliser et industrialiser leurs données sur Google Cloud pour produire des datasets prêts pour le reporting et la prise de décision. Je conçois des pipelines ELT/ETL robustes (batch et évènementiel), de l’ingestion jusqu’au data warehouse, avec une approche DataOps / CI-CD / IaC.

Comment je peux vous aider

Concevoir et industrialiser des pipelines data sur GCP (ingestion multi-sources : API/HTTPS, SFTP, fichiers Parquet/CSV…)
Mettre en place une architecture évènementielle scalable (ex : GCS → Pub/Sub → Workflows → Cloud Run → BigQuery)
Structurer et optimiser le DWH BigQuery : modélisation, partition/cluster, coûts & perf
Transformer & tester les données avec dbt (tests, qualité, traçabilité)
Automatiser l’infra et les déploiements via Terraform + Docker + Cloud Build (IaC + CI/CD)
Sécuriser et fiabiliser : IAM, Secret Manager, logs/monitoring, gestion d’incidents

Ce qui me différencie

Forte culture industrialisation (qualité, monitoring, logs, gestion d’erreurs)
Expertise GCP end-to-end + orchestration (Airflow/Composer, Workflows)
Capacité à cadrer un besoin métier et livrer vite (Agile, estimation, backlog)

Livrables typiques

Pipelines ELT/ETL + DAGs Airflow, jobs Spark/PySpark
Modèles BigQuery + dbt (sources/staging/marts) + jeux de tests
Infra as Code Terraform + pipelines CI/CD
Documentation, runbooks, dashboards de suivi/qualité (selon contexte)

Langues

Français
Bilingue ou natif

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 50 km), Nice (jusqu’à 50 km), Toulouse (jusqu’à 50 km), Bordeaux (jusqu’à 50 km), Lyon (jusqu’à 50 km)

EDF
Senior Data Engineer
ENERGIE
novembre 2022 - février 2026 (3 ans et 3 mois)
Île-de-France, France
Contexte : Mise en place d'un dispositif data visant à améliorer la performance des équipes d'inspection et de supervision. Les données terrain étaient centralisées et structurées afin de fiabiliser le suivi de l'activité, optimiser la planification des interventions et renforcer la sécurité ainsi que la qualité des opérations. L'enjeu principal est fournir aux superviseurs une vision consolidée et fiable pour piloter efficacement les équipes et prioriser les actions.

Définir les méthodes de récupération des données par source de données.
Identifier les services GCP pour les différentes phases de traitement
Développer les DAGS Airflow d'ingestion (HTTPS, SFTP)
Ajouter la partie reverse-proxy pour la connexion entre les bases de données et GCP
Mise en place d'une architecture évènementielle(GCS -> Pub/Sub -> Cloud Workflows -> Cloud Run ->
BigQuery) et automatisation des traitements avec dbt
Industrialisation de l’infrastructure et des déploiements via Terraform, Docker et Cloud Build (IaC + CI/CD).
Modélisation d’un data dans BigQuery avec dbt et sécurisation des accès (IAM, Secret Manager),
accompagnés de tests end-to-end et monitoring des logs.
Industrialisation des jobs Spark (packaging, paramètres, logs, gestion des erreurs)
Contribution à la gouvernance data : référentiels, définitions des master data par domaine, alignement avec la stratégie data groupe.
Mise en place d’une chaîne ML sur Vertex AI : contrôles qualité data , batch prediction planifiée et suivi des performances (métriques, dérive, erreurs) via Vertex AI Monitoring.
Veille technologique sur les outils et auto-formation continue sur les outils d’IA
Technologies: Python, SQL, Terraform, Terragrunt, Spark(Dataproc), dbt, Docker, Cloud Storage (Delta Lake), Dataplex, Google Cloud BigQuery, Google Cloud Build, Google Cloud Logging, Google Cloud Platform (GCP),
Google Cloud Run, Google Identity and Access Management (IAM), Google Pub/Sub, Google Workflows, Vertex AI.
Google cloud Terraform Spark Python SQL
Thales
Data Engineer
TRANSPORTS
septembre 2021 - octobre 2022 (1 an et 1 mois)
Île-de-France, France
Contexte : Mise en place d'un cas d'usage Data end-to-end pour centraliser des données d'activité des moyens de transport multi-pays puis les adapter à un contexte retail de facturation. L'objectif est fiabilisé et historisé les données afin de produire des datasets prêts pour le reporting et la prise de décision. Production d'indicateurs métier (activité par zone/période, montants moyens, modes de paiement, CA par pays, panier moyen, top produits) avec exécutions récurrentes.

Analyse des besoins avec les équipes métier et rédaction des spécifications techniques.
Développement de scripts Python pour l’ingestion automatique de fichiers Parquet/CSV vers GCS, avec
logs.
Mise en place et gestion des buckets et des fichiers dans GCS
Développement SQL dans BigQuery et gestion des droits d’accès (IAM & Admin).
Création, configuration et déploiement de tables, vues, procédures stockées et pipelines dans le cloud GCP
Conception de pipelines de données pour la collecte et l’extraction depuis différentes sources de stockage
cloud, et création de modèles de transformation sous dbt.
Développement de jobs PySpark pour les transformations lourdes (normalisation, déduplication,
agrégations, enrichment), avec écriture vers BigQuery (tables partitionnées/clusterisées).
Gestion et analyse des incidents en environnements Dev et Prod (données erronées, données manquantes,
mises à jour de données).
Conception d’une architecture ELT GCP : Cloud Storage (raw), BigQuery (raw / transform / views), Cloud
Composer (Airflow)
Orchestration du pipeline via un DAG Airflow/Cloud Composer planifié.
Technologies: Apache Airflow, Google Cloud CLI (gcloud), Google Cloud BigQuery, Google Cloud Composer,
GCP, Google Cloud Shell, IAM, Terraform, Python, SQL, GCS, ELT, Spark.
Python SQL Terraform Google Cloud Platform (GCP) Spark
Auchan
Data Engineer | CDI
E-COMMERCE
septembre 2020 - août 2021 (11 mois)
Lille, France
Contexte : Refonte et migration des pipelines de données qui alimentent +30 Dashboard Marketing Digitale utilisés par +2000 utilisateurs à travers le monde depuis DOMO vers GCP et Power BI.

Réalisation d'une API pour une solution Big Data interne avec de JAVA (Spring webflux)
Développement et optimisation de requêtes SQL
Réalisation des tests unitaires avec JUnit
Gestion du versioning avec GIT
Développement de la couche présentation en Angular7, HTML, CSS
Mise en place de l'infrastructure sur GCP et configuration des pipelines CI/CD sur GitHub
Collaboration avec l'équipe de Dataviz pour créer des Dashboard optimisés et pertinents
Développement des ETL pour extraire des données de diverses sources (APIs etc….)
et réalisation de transformations de données
Contribution active à l'amélioration de l'architecture afin d’optimiser les performances
Création des user stories, gestion du backlog et estimation, permettant une planification efficace du projet

Technologies: Python, Java, CSS, HTML, Angular, Google BigQuery, Google Workflows, Google Cloud Run, Docker, Terraform, Git , CI/CD
Python SQL Google Cloud Platform (GCP) Docker Java