You're seeing this page as if you were . The main menu is still yours, though. Exit from immersion
Yaouen VandenbosscheYV

Yaouen Vandenbossche

Data Engineer | Cloud | Airflow | DBT | Spark

600 €/jour
Lille, FR
3-7 ans

Délai de réponse moyen : 1h

À propos de Yaouen

Je suis un freelance spécialisé en ingénierie des données, passionné par la création de solutions robustes pour gérer, traiter et analyser des volumes massifs de données. Fort d'une solide expertise dans la data, je propose mes services pour aider les entreprises à exploiter la valeur de leur données.

Je conçois, développe, teste et maintiens des pipelines de données efficaces, redondantes et scalables en utilisant des technologies de pointe telles que Databricks et DBT mais aussi les services de cloud computing comme AWS et GCP.

Je suis également compétent dans la mise en place de bases de données, l'optimisation des performances, la mise en place de architectures distribuées ainsi que les chaines d'intégration et de delivery.

Je cherche principalement des missions en télétravail ou hybride.

  • Français

    Bilingue ou natif

  • Anglais

    Capacité professionnelle complète

  • Japonais

    Notions

  • Chinois

    Notions

  • Espagnol

    Notions

Accepte de travailler sur site
Lille (jusqu’à 40 km), Paris (jusqu’à 10 km)

Expériences

  • ADEO Services
    Data Engineer
    GRANDE DISTRIBUTION
    novembre 2022 - Aujourd'hui (3 ans et 7 mois)
    Lille, France
    Contexte :

    Dans l’équipe Supply Receiving Check intégrée à la Supply Data
    Chain Platform (SCDP) d’ADEO, j’ai pu participer à l’industrialisation et au
    scaling au niveau international de notre produit d’intelligence artificielle
    “Receiving Check” qui prédit les colis défectueux à leur arrivée afin de faciliter
    le contrôle en magasins et entrepôts via une API.

    Je travaillais en collaboration avec un Data Analyst, un Data Scientist pour les
    besoins de dataviz et d’IA et un SE pour les besoins de l’API.
    Équipe de 7 à 10 personnes en mode Agile Scrum.

    Réalisations techniques :

    Data Engineering :
    • Collecte des données, conception, développements et tests de flux Data sur Bigquery/Postgres/DBT.
    • Industrialisation du projet pour l’intégration de nouveaux pays (Portugal, Brésil, Italie, France) et mise en place des flux Data correspondants.
    • Mise en place d’une stratégie de tests pour nos pipelines.
    • POC de la librairie de tests great expectations.
    • Amélioration des flux existants en mettant en place des bonnes pratiques de code.
    • Développement de pipelines data basées sur l’environnement GCP pour le DataLake (GCS) et le DataWarehouse (BQ)/Postgres.
    • Orchestration de nos flux avec Airflow sur le service Composer (GCP).
    • CI / CD et versionning via Github / GH actions.
    • Documentations techniques sur confluence et collibra.
    • Mise à disposition des données sur Firestore puis Postgresql/BQ via des data marts.
    • Refonte de l’architecture du projet de bout en bout sur DBT afin de faciliter le développement et le déploiement de nouvelles features data.
    • Analyses exploratoires via la librairie Pandas et jupyter notebooks.
    • Maintien et run de jobs ETL sur Dataflow, cloud functions.
    • Identification des sources de données et garantir l’accès à cette données pour l’ensemble de l’équipe (Gestion de droits IAM GCP).
    • Mise en place de flux kafka (Avro) et connexion à Big Query.

    System Engineering :
    • Conception, développements et tests (unitaires/intégration/e2e) de nouvelles fonctionnalités pour l’API grâce à Python et Fast API.
    • Déploiement de l’API sur Turbine (outils interne pour l’orchestration de container) et intégration des différents nouveaux pays.
    • Tests et mise en place de nouveaux scénarios de tests sur Postman.
    • Run technique, veille, amélioration continue et mise en prod
    • Gestion du contrat d’interface de l’API (Pydantic).
    • Monitoring et suivi des performances de l’API via des métriques (SLO/SLI/SLA) sur datadog.
    • Versionning et CI/CD Git/Github.
    • Mise en place de logging Datadog et Kafka pour leur intégration dans Big Query à des fins d’analyses / de reporting.
    GCP Google Cloud Plateform Big Query Airflow Composer Google Cloud Functions Logging Datadog Git/Github Github Actions Github Copilot Fast API Apache Kafka PostgreSQL Google Cloud Storage DBT Automatisation des tests CI/CD Collibra Pandas Jupyter Dataflow Apache Avro System engineering Data Engineering API Programmation Python Python Gestion des identités et des accès (IAM) Software Craftsmanship Firestore great expectations Monitoring
  • Decathlon
    Consultant Big Data / Spark
    GRANDE DISTRIBUTION
    janvier 2021 - novembre 2022 (1 an et 10 mois)
    Lille, France
    • Récupération des besoins clients, conceptions, développements, tests unitaires et d'intégrations de Pipeline ETL Spark ou Spark Streaming à l'aide du framework Spark Scala 3.1.2.
    • Utilisation du Cloud AWS pour le DataLake (S3) et DataWarehousing (RedShift) / Glue pour le metastore et Athena pour l'analyse exploratoire.
    • Utilisation de Spark sur la plateforme DataBricks pour exploration de la donnée / Analyse / développement de dashboard de suivi de qualité de la donnée ou traçabilité.
    • Mise en place de tours de contrôle pour la vérification de la qualité des données et leur traçabilité.
    • Mise à disposition des données aux utilisateurs sur redshift/s3
    • CI / CD et Orchestration des jobs avec Jenkins sur les différents projets ETL mis en place.
    • Versionning Git/Github
    • Formation Airflow.
    • Run technique, veille, améioration continue des flux. Réalisations fonctionnelle :
    • Suivi de projet sur la suite Atlassian.
    • Matrice d'expression des besoins développeurs pour les nouvelles US.
    • Ateliers pour établir les bonnes pratiques sur les différents projets de l'équipe (Code Review / Tests / Normes dév)
    • Accompagnement des utilisateurs pour la réalisation de nouvelles US (tres amigos, contact régulier, démo…)
    • Gestion des incidents (Run) et accompagnement/communication avec les utilisateurs.
    • Documentations techniques / fonctionnelles des flux (nouveaux comme existants) sur Confluence et Collibra. Accueil et accompagnement des nouveaux data engineer lors de leur arrivée chez Decathlon.
    Amazon Web Services Amazon Redshift AWS S3 Git GitHub Gitflow Scala Github Actions Spark Streaming Spark Databricks Jenkins Tests unitaires Analyse de données Méthode agile Scrum AWS Glue AWS Athena Airflow Atlassian JIRA Atlassian Confluence
  • ADN AxDaNe
    Data Engineer & RPA Engineer
    INDUSTRIE PHARMACEUTIQUE
    septembre 2019 - septembre 2020 (1 an)
    Levallois-Perret, France
    Missions principales : Mise en place d'algorithme d'intelligence artificielle pour la validation de systèmes de santé et l'identification des exigences :
    • Langages : Python, SQL
    • Frameworks : Pandas, Spark, SparkNLP, Scikit learn, NLTK ...
    • Algorithmes : SVM, Natural Language Processing (NLP), Naives Bayes, Logistic Regression, Word2Vec, BOW, TF-IDF ...
    • Mise en place de la plateforme de Robotic Process Automation (RPA/RCA) Automation Anwywhere :
    • Installation et administration dans le cloud AWS.
    • Administration de la plateforme AAE 2019.
    • Développement de robots logiciels (RPA) et de robots cognitifs IQ Bot (RCA).
    • Étude pour la validation des robots cognitifs.
    • Présentation d'un Webinar sur AAE 2019 et ses applications dans la santé
    Secondaires :
    • Formation sur le cloud d'AWS (DynamoDB, Lambda, SageMaker)
    • Formation et prise en main de la plateforme 3DEXPERIENCE de Dassault Systèmes.
    • Formation et Certifications RPA sur Automation Anywhere
    AWS DynamoDB Sagemaker Apache Spark MLlib Spark Python AWS EC2 AWS S3 Automation Anywhere Pandas Scikit-learn Natural Language Processing (NLP) Sonar Bitbucket Atlassian JIRA Atlassian Confluence

Recommandations

Soyez le premier à recommander Yaouen

Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.

Ces profils de freelance correspondent également à vos critères

AgathaA

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

2

BaptisteB

Baptiste Duhen

Fullstack developer

4.6

(4)

5

AmedA

Amed Hamou

Senior Lead Developer

4

(2)

7

AudreyA

Audrey Champion

Web developer

4.3

(3)

4

Formations

  • Diplôme d'ingénieur Généraliste, spécialité Big Data
    Ecole supérieure d'électronique de l'Ouest - ESEO Angers
    2020
    Diplôme d'ingénieur Généraliste, spécialité Big Data
  • Certification MOOC Gestion de Projet, Parcours classique
    MOOC Gestion de Projet
    2018
    Certification MOOC Gestion de Projet, Parcours classique

Compétences

Catégories