Description

Ingénieur double diplômé en informatique et en modélisation et calcul scientifique. En immersion depuis 8 ans dans les systèmes distribués, principalement autour de Spark.

En quelques bullet points :

- bonne connaissance du principe cloud, expérience sur Azure et AWS

- rôle de tech lead sur 4 ans

- j'apprends très vite ! à la fois la prise en main des outils/écosystèmes techniques mais aussi bien l'appréhension du métier/fonctionnel et des flux d'intégration

- méthodologie agile

Domaines d’expertise

Langues

Anglais
Capacité professionnelle complète
Arabe
Bilingue ou natif

Préférences en matière de lieu de travail

Accepte de travailler sur site

Courbevoie (jusqu’à 50 km)

ITNOVEM
Senior Data Engineer
TRANSPORTS
octobre 2021 - juin 2023 (1 an et 8 mois)
Paris, France
Refonte des chaines de collecte et de mise à disposition des données dans le Datalake
pour les besoins d’analytics de l’entité voyage (connaissance client)

Reprise de l’existant : analyse des datamodels et des notebook pyspark existants, exploration des datasets générés
Recueil des besoins d’évolution sur l’existant et des anomalies remontées par le métier
Conception et validation de la solution technique de refonte via l’implémentation de batchs Spark quotidiens sur Databricks
Rédaction des spécifications technico fonctionnelles des jobs à implémenter et documentation des schémas de flux sur Confluence
Implémentation des pipelines d’ingestion en deux temps : première version rapide en notebook sur databricks et ensuite industrialisation en application Spark Scala avec tests unitaires et d’intégration
Collecte et transformation des données brutes en Json/csv/parquet
Structuration du datalake en trois couches raw, bronze et gold au format Delta afin de minimiser le temps de mise à disposition des données du flux quotidien ainsi que l’initialisation des datasets les plus volumineux (3milliards de lignes)
Modélisation des traitements en incrémental (vs reprise quotidienne de l’historique) afin de minimiser le temps de traitement (passage de 12h en Talend à 10 minutes de batch Spark toutes les heures)
Agrégation et exposition des données enrichies dans le datawarehouse (Azure Synapse) sous forme de vues SQL, amélioration des performances d’écriture dans Synapse à travers la création de tables CTAS (passage de 2h à 5 secondes en temps d’indisponibilité des vues métier)
Amélioration de la chaine CI : mise en place des versions applicatives, initialisation de Nexus et déclaration des pipelines de build dans Jenkins, instauration des revues de code et des merge requests obligatoires
Monitoring technique et opérationnel sur Datadog : suivi d’exécution des jobs spark, et monitoring par dimensions du volume de données mises à disposition
Initialisation de l’environnement de Benchmark pour les stress tests et la qualification des performances en iso Prod
Accompagnement de l’équipe, onboarding des nouveaux arrivants, pair programming.
Azure Databricks Azure Synapse Spark Scala Deltalake Datadog Rundeck Agile
Kering
Tech Lead
LUXE
juin 2019 - octobre 2021 (2 ans et 4 mois)
Paris, France
Datalake sur AWS
Pipelines d'ingestion et de traitement des données brutes et normalisées (Apache NiFi / Spark / Cassandra / S3)
Optimisation fonctionnelle et technique des batch Spark
Amélioration des dépendances et du scheduling des jobs
Mise à disposition de données enrichies/pré-agrégées
Migration du scheduling sur Airflow
Reporting operationnel
Encadrement des use cases (études préliminaires, élaborations des spécifications fonctionnelles/techniques, suivi du développement et des phases d'UAT)
Mise en place d'une solution de découverte de la donnée basée sur Apache Druid et Superset
Automatisation d'un mécanisme de reporting basé sur SQL qui offre l'indépendance aux data analysts
Accompagnement des utilisateurs du datalake (compréhension de la donnée, best practices de développement et d'exploitation des plateformes)
Transverse
Gestion de la roadmap technique (dette technique, upgrade des services, initiation de POCs, ...)
Participation aux ateliers structurant du datalake (gouvernance des données, offre de service)
Coordination technique transverse de 3 équipes (dont 2 au sein du datalake)
Support niveau N2 et N3
Spark Amazon Web Services SQL Méthode agile Tech Lead Scala
Kering
Tech Lead
LUXE
juillet 2017 - juin 2019 (1 an et 11 mois)
Paris, France
Collecte et mise à disposition de données opérationnelles enrichies
Participation à l'architecture technique
Ingestion de données structurées et semi structurées avec Apache NiFi
Mise en place de pipelines d'enrichissement en lambda avec Spark scala (real time et batch)
Persistance des données enrichies dans Cassandra + indexation dans Apache Solr
Redistribution des données brutes et enrichies (Data Hub) dans kafka et exposition via api Node JS
Garantie de la qualité des données exposées (Tests applicatifs / Data quality checks / Monitoring des flux)
Suivi et gestion de la prod, gestion du versionning (applicatif et celui de la donnée)
Campagnes de stress tests sur la plateforme on Premise
Migration progressive des services (Cassandra/Spark/Solr/Redis) et des applicatifs sur AWS
Implémentation RGPD
Animation agile et coordination de l'équipe
Mise en place des scénarios backup/restore
Spark Scala Solr Cassandra Apache Kafka Elasticsearch Apache Nifi Redis