À propos de Dioula
Français
Bilingue ou natif
Anglais
Capacité professionnelle complète
Expériences
- CawoylelAI/Data EngineerCENTRES DE RECHERCHEmai 2023 - Aujourd'hui (3 ans et 1 mois)Paris, FranceCawoylel est une organisation dont le but est de mettre en place des technologies de langues (NLP) avancées dans la langue peule.1. Collecte et transformation de données audios et textuelles provenant de différentes sources et ingestion dans Google Drive- Pipelines d'alignement des données audios avec leurs transcriptions- Création de jeux de données de reconnaissance vocale et déploiement sur Hugging Face en Open Source- Rédaction de la documentation technique2. Développement d'une plateforme web collaborative de collecte et d'annotation de données avec Python - Flask - PostgreSQL- Dockerisation et Déploiement de la plateforme sur AWS EC2- Mise en place process CI/CD avec GitLab3. Extraction et alignement de données de traductions dans documents PDF (dictionnaires Peul - Français)- OCR avec Google Cloud Vision pour extraire de manière précise les données textuelles- Few shot prompting avec Langchain, Vertex AI et Kor afin d’aligner chaque mot/phrase peul avec sa traduction française3. Développement de modèles d'IA de reconnaissance vocale et de traduction- Mise en place de Windanam, solution de reconnaissance vocale entraînée à partir du modèle open source MMS de Meta- Déploiement de la solution sur une instance Space de Hugging Face- Mise en place d’une application web interactive avec Streamlit permettant aux utilisateurs d’interagir avec le modèle
- KPMG SA - FranceConsultant Expérimenté - Data Engineer - ScienceCONSEIL & AUDITmars 2021 - mai 2023 (2 ans et 2 mois)Paris, France1. Data Product LeadLead technique sur le développement et la mise en place d'un outil de qualité des données en PySpark sur Azure en utilisant la librairie open source Great Expectations.Réalisations:- Développement d’un framework de contrôle et validation de la qualité des données intégré dans les processus d'ingestion des données du client.- Développement de dashboards permettant aux utilisateurs métier de consulter les indicateurs de qualité des données les plus récents- Livraison en temps voulu des produits de qualité de données à haute valeur ajoutée qui ont identifié 100% des problèmes/erreurs et rapporté leur évolution au fil du temps.- Amélioration de la visibilité de la qualité des données pour les équipes commerciales et métiers, leur donnant une vue 360 des données, entraînant ainsi une prise de décision plus éclairée et une confiance accrue dans les décisions basées sur les données.- Recommandation de nouvelles sources de données à intégrer, élargissant la compréhension des clients de l'organisation et permettant de nouveaux cas d'utilisation.Compétences techniques: Azure Databricks, Azure Data Lake, Azure Data Factory, PowerBI, Sengrid Email API, PySpark, Great Expectations (librairie python open source).2. Consultant Data Engineer - Déploiement Customer Data PlatformMise en place et déploiement d'une Plateforme de Données Client (CDP), en exploitant Azure Data Lake comme principale source de données, à des fins d’activités de marketing digital hyper-personnalisées.Réalisations:- Conduite d'évaluations des cas d’usage et d'analyses de faisabilité avec 5 différents marchés locaux, conduisant à l'identification et à la priorisation de cas d’usage maximisant la valeur commerciale.- Mise en place de PI Plannings avec Mural pour planifier, exécuter et surveiller efficacement toutes les itérations de projet.- Automatisation de la collecte, de la transformation et de l'ingestion des données (batch, temps réel) à partir de différentes sources, y compris des API et Azure EventHub, et ingestion des données dans Azure Data Lake et la Plateforme de Données Client.- Segmentation et recommandation de contenu personnalisé en fonction des profils clients issus des données unifiées.- Documentation de la gouvernance de la CDP et des processus, assurant cohérence et meilleures pratiques sur différents marchés et cas d'utilisation futurs.- Développement de visualisations interactives pour offrir une vue complète du comportement des clients et des résultats des campagnes.Compétences techniques : Pipelines ETL, Databricks, Azure Data Lake, Azure Data Factory, Azure Event Hub, Azure SQL, Spark Streaming, Mural (outil de collaboration), segmentation clients, systèmes de recommandation, PowerBI.3. Consultant Data Science - Système Automatisé d'Analyse et Modélisation de Résultats de Tests de LaboratoireDéveloppement d'une solution automatisée pour l'analyse et la modélisation des résultats de tests de laboratoire provenant de plusieurs fournisseurs.Réalisations:- Renforcement du contrôle qualité en mettant en place un système d'alertes automatisées par e-mail déclenchées par des limites d'avertissement et de contrôle définies.- Développement d'une solution de modélisation des tendances, améliorant les prévisions de 15 % et permettant une anticipation précise des tendances à la hausse et à la baisse.- Mise en place de dashboards PowerBI fournissant aux équipes métiers des informations exploitables et des insights pertinents.Compétences techniques : Azure Databricks, Pyspark, Azure Data Lake, Azure Data Factory, Sendgrid Email API, PySpark, Prévisions et Modélisation de Séries Temporelles, Power BI4. Consultant Data Science - Système Automatisé d’Analyse de Clauses Bénéficiaires d’Assurances VieMise en place d'un algorithme automatisant le processus de validation des clauses bénéficiaires d'assurance vie, améliorant la précision et l'efficacité de leur validation par les assureurs.Réalisations:- Réduction de plus de 90 % du temps de travail manuel consacré à la validation des clauses bénéficiaires.- Dépassement des attentes du projet en atteignant une performance de 94,33 %, assurant une grande précision dans l'identification et la validation des clauses de bénéficiaire.Compétences techniques : Python, Google Cloud Platform, NLP, Spacy, Regex, Sentence Embeddings, Semantic Similarity, Tensorflow, Universal Sentence Encoding5. Consultant Data - Extraction d’informationsAutomatisation de l’extraction d'informations d’emploi et d’intérimaires dans des bases de données.Réalisations :- Développement d'un processus automatisé d'extraction des informations d'emploi, réduisant la charge de travail manuelle de 100 %.- Extraction d'informations telles que les noms, prénoms, dates de début, titre du poste, la description du poste, etc.Compétences techniques : Stack Python pour la science des données, Reconnaissance d'Entités Nommées, Data Mining6. Consultant Data MigrationRéalisation d’une migration de données provenant de sources de données locales d’un différents marchés vers des APIs.Réalisations :- Gestion rigoureuse de la conformité aux réglementations et exigences de conformité, permettant la réalisation de la migration dans les délais impartis et sans encombre.- Développement et implémentation de scripts permettant la récupération des données depuis Amazon S3, leur traitement, leur transformation ainsi que leur mapping avec les schémas attendus au niveau des APIs- Déploiement de scripts capables de calculer et de capturer les différences entre deux snapshot de données, permettant d'identifier précisément les ajouts, les suppressions et les mises à jour au sein de l'ensemble de données.Compétences techniques : Pyspark, Azure Data Lake, Azure Data Factory, Amazon S3
- KPMG SA - FranceTransactions Services AnalystCONSEIL & AUDITjuillet 2020 - septembre 2020 (2 mois)Paris, FranceParticipation à des missions de conseil à l'aide d'outils, best practices et méthodes développés au plan international par KPMG.Compétences techniques: Python, Excel, Microsoft PowerPoint
Recommandations
Soyez le premier à recommander Dioula
Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.
Ces profils de freelance correspondent également à vos critères
Agatha Frydrych
Backend Java Software Engineer
4.7
(3)
2
Baptiste Duhen
Fullstack developer
4.6
(4)
5
Amed Hamou
Senior Lead Developer
4
(2)
7
Audrey Champion
Web developer
4.3
(3)
4
Formations
- Modélisations statistiques et applicationInstitut Polytechnique de Paris - Télécom SudParis2021Statistiques, Probabilités, Machine Learning, Deep Learning, Optimisation
Certifications
- Microsoft Azure AI 900Microsoft2021
- Natural Langage Processing SpecializationDeeplearning.AI - Coursera2020