Description

Data engineer avec une solide expérience en environnement de production, j'aide les entreprises à construire des architectures data fiables, scalables et prêtes pour l'IA.

Mes optimisations sur les pipelines data ont permis de réduire les coûts de plusieurs centaines de milliers d'euros en production. C'est ce que j'apporte à chaque mission : une vision technique rigoureuse, orientée performance et impact business réel.

J'interviens sur l'ensemble de la chaîne de la donnée : conception de pipelines ETL/ELT, orchestration, modélisation, et mise en qualité des données. J'ai travaillé sur des projets data complexes à grande échelle, notamment sur des plateformes enterprise comme Palantir Foundry.

Mon atout différenciateur : issu d'un Master en Data Science, je comprends les besoins des équipes ML et IA en amont. Je construis des pipelines pensés pour l'usage réel — feature stores, données d'entraînement, monitoring — sans que les data scientists aient à retravailler derrière.

Compétences clés :

— Data Engineering : Python, Spark, SQL, ETL/ELT, orchestration

— Plateformes : Palantir Foundry, Databricks

- Cloud : GCP, AWS

— MLOps : CI/CD data, déploiement de modèles, monitoring

— AI : intégration LLM, pipelines RAG, data pour agents IA

Domaines d’expertise

Langues

Français
Bilingue ou natif
Anglais
Capacité professionnelle complète

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 50 km)

Société Générale
Data Engineer
BANQUE & ASSURANCES
septembre 2023 - Aujourd'hui (2 ans et 9 mois)
La Défense, France
Dans le cadre de cette mission longue durée, j'interviens en tant que Data Engineer en environnement de production à grande échelle.
Réalisations clés :
→ Optimisation de l'infrastructure data ayant généré plusieurs centaines de milliers d'euros d'économies grâce à la refonte de pipelines Spark sous-performants et la réduction significative des temps de traitement et des coûts de compute.
→ Conception et développement de pipelines de données scalables (ETL/ELT) sur Palantir Foundry, assurant fiabilité et maintenabilité en production.
→ Optimisation de workflows Big Data sous Apache Spark et Python : réduction des temps d'exécution, amélioration de la gestion mémoire et partitionnement des données.
→ Mise en place de processus d'automatisation du contrôle qualité des données, réduisant les interventions manuelles et les erreurs en production.
→ Collaboration étroite avec les équipes Data Science pour la fourniture de datasets fiables, documentés et réutilisables, accélérant la mise en production des modèles ML.
→ Contribution à l'architecture data globale dans une logique de scalabilité, performance et réduction des coûts d'infrastructure.
Environnement technique : Palantir Foundry, Apache Spark, Python, SQL, ETL/ELT, Big Data, MLOps, Data Quality, Pipeline Orchestration.
Palantir Foundry Spark Python SQL MLOps
Societe Generale
Data Scientist
BANQUE & ASSURANCES
mars 2023 - septembre 2023 (6 mois)
Paris, France
Dans le cadre de mon stage de fin d'études (Master Data Science), j'ai travaillé sur un projet de génération de données synthétiques, une problématique au croisement de la data science, de la confidentialité des données et de la qualité des datasets.
Réalisations clés :
→ Conception et développement d'un moteur de génération de données synthétiques capable de reproduire les distributions statistiques de données réelles tout en garantissant la confidentialité et la sécurité des données sensibles.
→ Application de techniques avancées de Machine Learning et de modélisation statistique pour générer des datasets artificiels réalistes, utilisables pour les phases de test et d'analyse sans exposition de données personnelles.
→ Mise en place d'un framework d'évaluation de la qualité des données synthétiques : mesure de similarité, métriques de fidélité statistique et tests d'utilisabilité pour garantir la fiabilité des datasets générés.
→ Intégration du pipeline de génération dans l'environnement de test interne de l'entreprise, avec documentation technique complète facilitant la prise en main par les équipes.
Impact : Réduction de la dépendance aux données réelles pour les phases de test, accélération des cycles de développement et conformité renforcée avec les exigences RGPD / Privacy by Design.
Environnement technique : Python, Airfow, Jenkins, Docker, Git, Machine Learning, Statistical Modeling, Synthetic Data Generation, Data Privacy, Data Quality, RGPD, Pandas, Scikit-learn.
Python Airflow Machine learning Artificial Intelligence (AI) Jenkins

Soyez le premier à recommander Soufiane

Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

S’inscrire pour les voir

Double diplôme MSIAM Data science
ENSIMAG
2023
Ingénieur
ENSIMAG - Grenoble INP
2023

Certified Palantir Foundry Data Engineer Professional
Palantir
2025
https://verify.skilljar.com/c/eg5yjx5ck8e8
Git PySpark Palantir Foundry Big Data Spark Python SQL
Databricks Certified Data Engineer Associate
Databricks
2026
https://credentials.databricks.com/cb89a33c-2183-447b-bcf8-4ff7c8536c43
Git PySpark Big Data Databricks Spark ETL SQL Python

Data Engineer

Ingénieur IA

Soufiane Lemrabet

Data Engineer & AI Palantir Foundry

À propos de Soufiane

Expériences

Recommandations

Ces profils de freelance correspondent également à vos critères

Formations

Certifications

Compétences

Catégories