Description

Bonjour, merci de visiter mon profil !

Je suis Data Scientist / ML Engineer avec plus de 6 ans d’expérience dans la conception, le développement et le déploiement de systèmes de machine learning et de générative AI en production.

J’ai de l’expérience sur l’ensemble du cycle de vie du ML, de la définition du problème et la conception de l’architecture jusqu’au déploiement et au monitoring, aussi bien dans de grandes entreprises que dans des environnements startup.

Mes compétences couvrent le machine learning appliqué, la computer vision, le NLP et la générative AI (RAG, LLMs, agentique), avec focus sur l’impact réel des solutions.

Langues

Français
Bilingue ou natif
Anglais
Bilingue ou natif

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 50 km), Marseille (jusqu’à 100 km), Lyon (jusqu’à 100 km)

BPCE
Lead data scientist
BANQUE & ASSURANCES
mai 2025 - Aujourd'hui (1 an et 1 mois)
Paris, France
🚀 Rôle transverse de consulting et d’audit GenAI au sein de BPCE, accompagnant plus d’une trentaine de projets internes (Risk, Finance, Juridique, IT, Opérations). Évaluation des architectures LLM, robustesse des pipelines, conformité data, choix technologiques et bonnes pratiques d’industrialisation. Contribution stratégique à la structuration de la gouvernance GenAI du groupe.

🛠 Participation au développement de NOVA, la plateforme interne low-code/no-code dédiée à la création de workflows GenAI complexes : RAG multi-étapes, agents orchestrés, outils spécialisés, pipelines hybrides avec règles métier. Co-construction de modules réutilisables, guidelines d’usage et intégration de briques de sécurité (audit, traçabilité, gestion de prompts sensibles).

🎯 Lead d’une équipe de 5 Data Scientists et 2 Software Engineers dans la conception d’un LLM Judge interne, outil d’évaluation automatique des réponses LLM utilisable par les DS comme par les équipes métier. Définition et implémentation de deux métriques cœur (correctness et groundedness) ainsi que d’un système modulable permettant d’ajouter facilement de nouveaux critères d’évaluation spécifiques aux usages.

📊 Développement d’un module d’évaluation du retriever, incluant analyse de la pertinence des passages, recall contextuel, robustesse aux variations de requêtes et mesure de la cohérence entre retrieval et génération. Intégration dans les workflows existants pour assurer un diagnostic complet des systèmes RAG.

🧩 Construction du back-end et de l’interface utilisateur de l’outil d’évaluation (API, orchestration, base de données, UI orientée analyse), permettant une autonomie totale des équipes métier et une adoption rapide. Déjà utilisé dans plus de 10 projets GenAI du groupe.

🔧 Techs : Python, FastAPI, Docker, GitLab CI, Vector DB (FAISS/Qdrant), HuggingFace, LangChain/LlamaIndex, React, ElasticSearch, Kubernetes, SQL, monitoring interne, LLMs on-premise / cloud privé.
Python (Programming Language) Docker SQL Data science RAG
BNP-Paribas
Senior ML eng
BANQUE & ASSURANCES
août 2023 - mai 2025 (1 an et 9 mois)
Paris, France
🚀 Développement de SpreadAuto, un outil d’extraction automatique de datapoints provenant de documents financiers complexes (balance sheet, income statement, cash-flow, annexes détaillées). Conception d’une pipeline complète hors LLM, reposant sur YOLO pour la détection des zones pertinentes, Camelot pour la reconstruction tabulaire, OCR, règles métier et dictionary matching. L’outil est aujourd’hui en production et utilisé quotidiennement par 30+ analystes et équipes Risk/Finance.

🧪 Mise en place de TDD, principes de clean architecture et d’un workflow CI/CD GitLab renforçant la fiabilité du code et des modèles. Construction d’un système de tests documentaires avec cas réels, suivi automatique des performances, logging structuré et monitoring opérationnel pour prévenir les régressions.

📦 Industrialisation de la chaîne ML : packaging via Docker, déploiements sur infrastructure interne, gestion des ressources GPU/CPU, orchestration de services d’extraction et exposition d’APIs sécurisées consommées par d’autres équipes. Optimisation des temps d’inférence et automatisation des release cycles.

🔍 Conception d’un système RAG destiné à l’extraction sémantique de datapoints, indépendant du type ou du format du document. Intégration d’embeddings internes, indexation vectorielle (FAISS/Qdrant), règles métier et stratégies de fallback. Développement de modules spécialisés pour termsheets, valuation reports, et diagnostics énergétiques, offrant des extractions adaptées aux différents contextes métiers.

🔐 Déploiement et optimisation de LLMs locaux afin de respecter les contraintes RGPD et bancaires : quantization, configuration mémoire, création d’un service interne d’inférence exposé via API. Mise en place d’une architecture garantissant que les données sensibles ne quittent jamais le périmètre BNP.

🔧 Techs : Python, FastAPI, Docker, GitLab CI, YOLO, Camelot, PyMuPDF, Tesseract, FAISS/Qdrant, Pytorch, ElasticSearch, Airflow/Kubeflow, SQL, Linux, infra on-prem.
Docker Python SQL LLMOps RAG
Saint Gobain Distribution Bâtiment France
Senior Data-scientist
BTP & CONSTRUCTION
janvier 2021 - août 2023 (2 ans et 7 mois)
Paris, France
🚀 Développement d'un modèle ML pour La Plateforme Du Bâtiment, pour la prévision de l'évolution des visites clients via utilisation du BG-NBD et d'autres données clients transformées. Actuellement en production.

📊 Calcul des parts de marché départementales à l'aide de modèles linéaires, s'appuyant sur des données internes et scrapées à l'INSEE. Les mesures de performance indirectes (unsupervised) montrent des estimations à 10% de marge d'erreur.

🧩 Segmentation de la base de clients pour DSC -LightGBM Classifier- et construction de feedback-loop pour labelisation pour l'amélioration continue et le suivi des performances.

🎯 Prédiction du potentiel commercial de la base de clients + création d'un embedding de consommation client via Variational AutoEncoder -utilisé par la suite dans d'autres modèles ML-.

🔧 Développement d'une architecture de test et de suivit de performances pour les projets ML en prod.

🔬 Techs: Python, Azure, CDSW, Impala, SQL, HDFS, Spark, Tensorflow, Scikit Learn, Pytorch.
Python (Programming Language) Machine learning TensorFlow Scikit-learn Pytorch

Consulter toutes les expériences de Raphaël

Pierre Choukroune et 1 autre personne recommandent Raphaël

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

S’inscrire pour les voir

MPSI/MP
CPGE Lycée Thiers
2015
MPSI/MP*
Master's degree, Engineering Diploma
École Centrale de Lyon
2019
Master's degree, Engineering Diploma

Modern Web Scraping with Python using Scrapy Splash Selenium
Udemy
2023
https://www.udemy.com/certificate/UC-e4e765cb-0d64-4967-a6e0-5f7a82e2a94b/
Scrapy BeautifulSoup Selenium Web Scraping
Deep Learning Specialization
Deeplearning.ia
2019
https://coursera.org/share/2e17f3809caf5fc185ba86744ebef0e5
Pytorch Python (Programming Language) Deep Learning TensorFlow

Les certifications de Raphaël sont accessibles uniquement aux membres Malt

Raphaël Benz

Senior Data-Scientist/ML engineer RAG/LLM/Agentic

À propos de Raphaël

Expériences

Recommandations

Ces profils de freelance correspondent également à vos critères

Formations

Certifications

Compétences

Catégories