Description

En tant que data ingenieur je suis capable d'intervenir sur l'ensemble de la chaîne de traitement des données, depuis la phase de recherche jusqu'au processus d'industrialisation, lors de mes différentes expériences j'ai rencontré des problématiques diverses et varies, de ce fait je pense aujourd'hui avoir assez de recul pour accompagner au mieux les clients sur differentes problématiques techniques de manière efficace et pertinente.

J'ai toujours travaillé dans des équipes mixtes d'une dizaine de personnes, avec d'autres data engineers et des data analysts ou des data scientists.

En terme technologie sur lesquel j'ai eu l'occasion de travailler lors de mes expériences en tant que data engineer :

- HDFS, Gitlab CI, Logstash, ElasticSearch.

- pySpark, pandas, Kafka, AWS( Kinesis, S3, RDS, ECS, Cloud Watch)

- Airflow, Scala, Google Cloud platform (BigQuery, Google Cloud Storage, Data Flow,).

- Sap BO, Kibana.

- Sql alchemy, MongoDB, Oracle

Langues

Français
Bilingue ou natif
Anglais
Bilingue ou natif
Arabe
Bilingue ou natif
Allemand
Notions
Italien
Notions
Kabyle
Bilingue ou natif

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 50 km)

bpifrance
Data Engineer
BANQUE & ASSURANCES
septembre 2022 - Aujourd'hui (3 ans et 9 mois)
Maisons-Alfort, France
En tant qu'ingénieur en données au sein de la DSI, plus précisément au sein du comptoir Finance et Risque, mes tâches consistent à gérer les aspects techniques liés à la collecte, au traitement, au stockage et à l'analyse de données afin de répondre aux besoins métiers de la direction des finances. Mes principales tâches se résument comme suit :

- Mise en place de flux d'ingestion et de transformation de données en utilisant Pyspark, du compartiment brut (raw) vers le compartiment géré par notre comptoir (trusted).
- Mise en place de jobs Glue pour agréger les données à l'aide de Pyspark, provenant de notre comptoir interne, afin de les rendre disponibles dans le compartiment MOU.
- Création de tableaux de bord de monitoring sur Datadog afin d'assurer la surveillance et la performance des tâches d'ingestion, d'agrégation de données, de suivi des performances des jobs Glue et de détection des erreurs.
- Développement de déclencheurs Lambda chargés de déclencher des jobs Glue lorsqu'il y a de nouvelles données dans un compartiment S3. Ces déclencheurs permettent également de reprendre l'historique sur les anciennes données arrivées en retard.
- Amélioration du taux de couverture du code en effectuant des tests de non-régression à l'aide de pytest.
- Migration de projets vers une architecture multi-tenant.
- Mise à disposition des données du MOU via une API destinée aux métiers, en utilisant le service API Gateway pour l'authentification, l'autorisation et la sécurisation des données exposées.
- Obtention des accreditations GoProd et GoDataset pour mon equipe
PySpark AWS Glue AWS Lambda AWS S3 Athena SAFe API Gateway
ENGIE IT
Cloud Data Engineer
ENERGIE
septembre 2021 - août 2022 (1 an)
Bagneux, France
Septembre 2021 – Aujourd’hui Data Ingénieur, Engie IT
Au sein du pôle centre d'expertise middleware, je suis en charge du développement d'outils pour la centralisation de données de différents fournisseurs (Elec et Gaz) pour les équipes métiers du groupe.
- Mise en place d’une chaîne de traitement de batch de donnée pour l’ingestion de données brutes (fichier plat) sous forme d'étapes staging et series à l'aide de spark et scala vers le Data Hub sur un bucket S3.
- Packaging via maven de jobs scala-spark en jar et tournant sur un cluster Databricks.
- Utilisation de Spark avec python pour distribuer le traitement des données sur de grands ensembles de données avec une amélioration significative de la vitesse d’ingestion

- Mise en place d'un ordonnanceur (Airflow) en vue d'automatiser les jobs Spark avec une fréquence quotidienne.
- Migration des connecteurs Kafka vers le bus de réception Kinesis
Requêtage et analyse des données Delta via AWS Athena.
- Mise en place d'une application d'automatisation de suppression d'historique de données clients pour les relevés de consommation de gaz et d'électricité (à la demande du client et dans le cadre de la politique RGPD du groupe) ceci en utilisant Java, Spring Boot, PLSQL, Oracle AWS RDS et AWS ECS.
- Mise en place de procédures pour calcul de la facturation dynamique en utilisant des jobs pySpark sous Databricks.
- Mise en place d’un job Pyspark de transfert de donnée d’une base Oracle vers S3 au format Delta
- Mise en place de tests de non régression.
Scala Spark Python Databricks IntelliJ IDEA PLSQL SQL Spring boot AWS Kinesis Athena AWS S3
EvidenceB
Consultant Data
EDUCATION & E-LEARNING
juin 2021 - août 2021 (3 mois)

Développement et maintenance de modules d'apprentissages à destination des enseignants et de leurs élèves (problématiques spécifiques liées au e-learning)
- Développement et maintenance des microservices back-end associés.
- Monitoring des applications (Grafana)
- Épuration et stockage de données à travers un parsing d'une grande volumétrie de structures de code Json.
Python 3 Pandas pytest-regressions Json JupyterNot

Consulter toutes les expériences de Malik

Soyez le premier à recommander Malik

Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

S’inscrire pour les voir

Diplôme d'ingénieur généraliste
IMT Atlantique
2019
Traitement du signal et de l'information : - Traitement numérique du signal - Processus aléatoires - Traitement du signal - Technologies du multimédia - Analyse et optimisation - Pratique des signaux aléatoires et communications numériques - Modélisation et simulation stochastique Economie et sciences humaines : - conjoncture et politique économique - économie industrielle et stratégie d'entreprise - théorie de la décision - comportements des acteurs et structure des marchés - politique marketing - Management et politiques d'entreprises Informatique : - Génie logiciel et orienté objet - SI et bases de données Réseaux : - Réseaux IP - Réseaux mobiles et réseaux sans fil - Qos et ingénierie des réseaux Data science : - Implémentation du Système de Gestion de Données - Optimisation - Statistiques - Traitement d'image numérique - Management - Machine Learning et Systèmes Intelligents - Clouds
Master 1 E3A
Université Paris Sud XI (nouvellement Paris Saclay)
2016
Cette formation m'a fourni une base solide dans tous les domaines des sciences de l'ingénieur liés à l'électronique, l'énergie électrique, l'automatique, l'ingénierie informatique, les communications et le traitement du signal et de l'image.

Big Data Analysis with Scala and Spark
Coursera - EPFL
2020
https://www.coursera.org/account/accomplishments/certificate/GGACNAD3CA6E
Spark Scala Python
Machine Learning
Coursera - Stanford
2021
https://www.coursera.org/account/accomplishments/certificate/VTE2X9C3HU9M

Les certifications de Malik sont accessibles uniquement aux membres Malt

Data Engineer

Malik Di

Lead Cloud Engineer

À propos de Malik

Expériences

Recommandations

Ces profils de freelance correspondent également à vos critères

Formations

Certifications

Compétences (63)

Catégories