Description

Près de 30 ans d'expérience en IA (Intelligence Artificielle) :

Dernières années : Apprentissage approfondi (Deep Learning), science des données, grandes données

Compétences clés : Apprentissage approfondi (Deep Learning : CNN, RNN, TensorFlow, PyTorch, etc.), NLP approfondi (Traitement du langage naturel : BERT, ULM-FiT, ELMo, Transfer Learning, OpenNMT, OpenAI Transformer, AllenNLP, Stanford CoreNLP), Data Science (Apache Spark MlLib, PySpark avec Optimus, Mahout, R, spaCy, Anaconda), Modèle hybride (structures prédéfinies + réseau neuronal + poids /stochastique, ex :)B. LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Attention, Feast AI), PMML, ONNX, OpenScoring.io, stockage des états intermédiaires d'apprentissage profond + modèles, représentation et inférence des connaissances, sémantique, virtualisation, gestion avec Docker, Kubernetes, Airflow, etc.

Début de l'activité professionnelle (1998 - 2010) lors de l'accalmie de l'IA : recherche sémantique, grattage et analyse de contenu web, communication discrète et sécurisée, filigrane textuel, veille concurrentielle

Compétences clés : Stochastique, bibliothèques de statistiques et de données scientifiques, Web sémantique, recherche sémantique avec ontologies/thésaurus/données lexicales structurées avec mesures stochastiques de similarité sur termes/contenus, OWL, DAML+OIL, NLP analyse avec grammaires formelles telles que HPSG, LFG, analyseur de diagramme (Chart Parser), lexique génératif, MRS (Minimal-Recursion Semantics), systèmes experts, contraintes, systèmes de planification de l'intelligence artificielle/système de gestion du workflow (WMS), exploration de données (data mining), business intelligence (BI) avec bases de données relationnelles et orientées objet, helpdesk automation, bureautique (OCR + ICR : Z.B. Examen des factures médicales, des demandes de remboursement d'assurance, des propositions d'éléments de texte pour répondre aux lettres).

Langues

Français
Bilingue ou natif
Allemand
Bilingue ou natif
Anglais
Capacité professionnelle complète

Préférences en matière de lieu de travail

Accepte de travailler sur site

Strasbourg (jusqu’à 50 km), Strasbourg (jusqu’à 100 km), Bâle (jusqu’à 100 km), Zurich (jusqu’à 100 km)

Chemins de fer Allemands
Architecte TI, Coach agile et chef de projet technique
TRANSPORTS
avril 2019 - Aujourd'hui (7 ans et 2 mois)
Francfort-sur-le-Main, Allemagne
Conception d‘un Open Source SOC (Security Operations Center)
1. Coaching agile : SAFe + Design Thinking, améliorant la productivité et la collaboration.
2. Ingénierie des exigences, cas d'utilisation 2.0 : Ingénierie des caractéristiques SIEM/SOC en général et dans le contexte ferroviaire. Analyse des aspects coûts/bénéfices des cas d'utilisation et de leurs dépendances en tant qu'intrants pour les activités agiles de gestion de produits/propriétaires de produit basées sur la valeur client.
3. Recherche, test et analyse des principaux systèmes open source SIEM/SOC : Apache Metron / HCP (Hortonworks Cybersecurity Platform), Apache Spot, dataShark, Alienvault OSSIM, Graylog, SIEMonster, Hunting ELK (HELK), Wazuh, MozDef, OSSEC, Prelude OSS, Snort, QuadrantSec Sagan, Suricata, OpenStack Vitrage.
4. Splunk : Installation, configuration, analyse et connexion aux sources d'entrée, création de cas d'utilisation d'analyse et de visualisation de Splunk avec SPL (Search Processing Language).
5. Création d'une architecture SOC générale avec des portées pour des configurations minimales, de base, avancées et premium avec jusqu'à 100 composants. Sur cette base, analyse et présentation des opportunités/coûts/risques pour répondre aux exigences et cas d'utilisation vis-à-vis des groupes de gestion et d'ingénierie.
6. Vision de la future de l'architecture SOC basée sur Apache Metron + Kafka + Spark + Elastic/ELK stack (ElasticSearch, LogStash, Kibana) et conception de l'architecture de ses composants - de préférence avec des outils open source pour réduire les coûts. De nombreuses suggestions concrètes pour améliorer le SOC (Security Operations Center), en créant une nouvelle architecture SOC avec des éléments AI : Approche Big Data/Data Science pour la détection d'attaques/logiciel malveillant/APT avec apprentissage machine et concentration sur la réduction des faux positifs. Concept de visualisation pour les cas d'attaques suspectés avec les contextes de sécurité respectifs via Design Thinking.
7. Open Source SOC PoC (Proof of Concept) : Collecte des exigences / cas d'utilisation, création de l'architecture basée sur 3 piliers : traitement des logs avec Solr/Elastic, éléments SOC Open Source (RegEx, Match Expressions avec Spark, Kafka, Solr etc.) ainsi qu'un pilier AI composé de Data Science et AI à base réglementaire avec Spark ainsi que Deep Learning avec TensorFlow et PyTorch.
8. Création et coordination du plan de projet Open Source SOC PoC et de l'architecture avec la direction générale du chemin de fer (CISO, bureau technique), création de 7 profils d'emploi et entretiens de recrutement et d'embauche sur cette base.
9. Acquisition d'un PC et d'un serveur avec Deep Learning GPUs ainsi que d'accès en nuage.
10. Conception de l'introduction de Docker/Kubernetes pour TensorFlow et PyTorch-Machine-Learning : comparaison avec l'alternative containerd avec GRPC, Docker Registries avec YAML pour Kubernetes, Flannel (configuration réseau couche 3). Cubernet Tools : kubelet (agent de noeud primaire), kube-proxy, Container Runtime, (haute disponibilité) terminaux HA, kubernetes-ha, Kube-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Ku-bernetes Package Manager, Microservices), Tiller (partie serveur Helm), Ingress (équilibrage de charge, terminaison SSL, hébergement virtuel), kube-keepalived-vip (adresses IP virtuelles Kubernetes utilisant keepalived), Kubespray (déploiement d'un cluster Kubernetes opérationnel en production). Analyse des Kubernetes et des défaillances de débit d'air pour les risques et dérivation des meilleures pratiques/recommandations.
11. Concepts d'ordonnancement optimisé concernant des performances et un débit maximum pour Apache Spark grâce à la mise en cache avec Alluxio, l'optimisation de la localité des données et la minimisation des opérations gourmandes en données : Planificateur d'étincelles sur mesure / Planificateur d'étincelles / Tâche de sauvegarde / Tâche de sauvegarde / Combineur SubDAG pour les flux de travail Dyna-mic (optimisation en mémoire), Pipelines d'apprentissage profond, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Optimisations d'âge des lignes de données.
12. Élaboration d'un concept complet de gestion des tests pour améliorer la stabilité du code développé en mettant l'accent sur l'acquisition de données, l'intelligence artificielle, DevOps, le pipeline CI/CD (intégration/déploiement continu avec Jenkins et Sonar(Qube)), les métadonnées et la sécurité informatique pour canaliser et améliorer le code par des tests de développement et d'intégration et des environnements pré-prod, et pour l'améliorer.)
13. Analyse des technologies qui pourraient succéder à l'apprentissage approfondi (Deep Learning), telles que la mémoire temporelle hiérarchique (HTM), les ConvNets graphiques/mémoire/transformateurs (réseaux convolutifs), y compris leurs implémentations librement disponibles et les PLNs (Probabilistic Logic Networks) : [Naïfs] Réseaux de croyances bayésiennes (BNN), réseaux logiques de Markov (MLN), champs aléatoires conditionnels (CRF), modèles graphiques directs (DGM), apprentissage relationnel statistique (SRL), grammaires stochastiques et or (AOGs/SAOG), modèles relationnels probabilistes (PRMs), Réseaux logiques de Markov (MLN), réseaux de dépendance relationnelle (RDN), programmes logiques bayésiens (BLP), modèles graphiques probabilistes (PGM), champs aléatoires de Markov (MRF), modèles graphiques contextuels de Markov (CGMM), modèles de Markov cachés (HMMs), neurones du cerveau humain (HBNs).
14. Développement d'une nouvelle méthode d'IA explicable (XAI) qui peut remplacer l'apprentissage en profondeur en combinant et en faisant progresser plusieurs autres modèles et techniques.
15. Demande de subvention préparée pour l'application du programme de subvention du gouvernement fédéral en matière d'intelligence artificielle pour la sécurité informatique : idées innovantes développées, dernières procédures d'intelligence artificielle, de science des données et de grandes données et développements ultérieurs proposés pour la détection de comportements inhabituels/attaques/malware ainsi que les dernières procédures NLP pour l'analyse automatique des attaques textuelles et des descriptions de malware sur Internet ou dans les e-mails/wikis ainsi que l'application des éléments Cyber Grand Challenge via Deep Learning, RNNs, CNNs. Développement de la stratégie d'entreprise et du plan d'entreprise pour la commercialisation séparée des innovations prévues.
16. Création de concepts de sécurité pour PCs et serveurs Windows et Linux grâce à de nombreux paramètres de sécurité, plus de journalisation, etc. et installation d'un maximum de 50 outils d'analyse et de surveillance tels que Sigar, Config. Discovery, File Integrity Checker (Afick), Outils de la CCG : BinaryAnalysisPlatform bap, angr, s2e, KLEE, Strace, ZZUF, BitBlaze.
17. Conception d'analyses scientifiques de données classiques concernant des activités suspectes avec GBM (Gradient Boosting Machine), XGBoost, CatBoost, LightGBM, ensembles empilés, blending, MART (Multiple Additive Regression Trees), Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labelling, Bootstrap aggregateating (Bagging), ROC/AUC (Receiver Operating Characteristic).
18. Analyse des meilleures implémentations de Deep Learning dans les sous-domaines respectifs : ResNet, ResNext, DenseNet, MSDNet (Multi-Scale DenseNet), RepMet, EfficientNet ainsi que les implémentations NLP suivantes (par exemple pour l'extraction de descriptions structurées à partir d'IoC textuelles - indicateurs de compromis) : BERT, FastBert, SenseBERT, RoBERTa, GPT, GPT-2.
19. Conception/développement d'architectures d'apprentissage profond neuronal pour TensorFlow, Keras, PyTorch avec ces éléments : (Dé)Convolution,[Dimensionnel][Min/Max/Moyen][Min/Max/Moyen] (Un-)Pooling, Fonctions d'Activation, ReLU (Rectified Linear Units), ELU (Exponential Linear Unit), SELU (Scaled Exponential Linear Unit), GELU (Gaussian Error Linear Unit), SNN (Self Normalizing Network), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Unit), Mémoire associative différentiable (Soft RAM/Hash Table), Mémoire épisodique, Réseaux de mémoire, Auto-attention, Auto-attention, Auto-attention, (Masked Multi) Auto-attention, NAC (Neural Accumulator), NALU (Neural Arithmetic Logic Unit), Squeeze-and-Excitation (SE) / SENet, SPN (Sum-Product Network), VAE (Variational Auto-Encoder), FCLs (Fully Connected Layers), PLNs (Probabilistic Logic Networks), GANs (Generative Adversarial Networks), Capsule Networks, gcForest, Differentiable Programming, Neural Architecture Search (NAS), Differentiable Neural Networks,[Transposed](De)Convolutions, ETL (Extract, Transform, Chargement) avec intégration d'entrée/sortie, (couche) normalisation, Softmax, apprentissage automatique de la machine, mémoire épisodique, mémoire associative différentiable, grandes couches de mémoire avec touches produit, apprentissage Q profond (double), apprentissage semi-automatique (SSL), diverses (ajout, concaténation, segmentation, linéarisation, (Convol.), Renforcement de l'apprentissage, Q-learning, Modèles convolutifs/Apprentissage, Google Dopamine.
20. Conception des architectures Deep Learning pour les cas d'utilisation / tranches de cas d'utilisation suivants (Use Case 2.0) : Dissémination des logiciels malveillants à travers les zones de sécurité, détection du comportement (vérification, propagation, détournement) des logiciels malveillants, attaques fréquentes, notamment les attaques OS-API, injection de code, etc..., des cycles CPU volés par des logiciels malveillants, éventuellement par des crochets dans les files d'attente d'événements pour détecter leur exécution, de ROP (Return Oriented Programming) avec variante ROPNNN sur les bibliothèques standard par comparaison avec les points d'entrée habituels à évaluer ; modèles créés au niveau méta : analyse des métadonnées réseau, niveau de détail : analyse des données utilisateur pour exploiter code/data, etc.., menaces actuelles, IoC connues, analyse neuronale des données Afick/tripwire, détection du cryptage et échange de clés.
21. Comparaisons détaillées : Elastic avec Solr et des frameworks principaux JavaScript : React, Angular et Vue.js, les frameworks natifs respectifs (Ionic etc.) ainsi que la plateforme électronique et les principaux nuages : Amazon AWS, Google GCP et Microsoft Azure ainsi que Docker/Kubernetes, Websockets vs REST, GraphQL vs Odata vs ORDS, comparaison des DBs appropriées, par exemple pour les analyses d'intervalle, AWS RedShift vs Athena.
22. Conception détaillée des aspects Solr suivants : SolrCloud/HDP Search, intégration avec Apache Ranger + Sentry + Atlas, client SolrJ aux performances optimisées avec requêtes parallèles, indexation distribuée, découpage d'index, division et rééquilibrage d'index (également en cours d'exécution), réplication cross data center (CDCR), sécurité Solr (Kerberos, connexion AD, SASL, SSL), version avec Avro & LDP (Linked Data Platform) et Apache Marmot-ta/RFC 7089 Cluster étendu vs Multi-Cluster synchronisé, dimensionnement, définition de l'identificateur d'index Solr (UID), haute disponibilité (HA) et mécanismes de reprise après sinistre (DR), Solr HA, concept d'équilibrage de charge (HW-based via F5, Ping against SolrCloud Node, solr healthcheck, Zookeeper, ContentQuery related Test Collection, SolrJ Client), reproduction, conception des réseaux en recouvrement (SDN, Software-Defined Networking).
23. Conception de l'architecture Amazon AWS cloud avec concept de migration vers le cloud et à partir de l'approche monolithique des microservices, stratégie d'évitement des risques, virtualisation, interface utilisateur JavaScript efficace avec React, concept de sécurité cloud, architecture microservice, stratégies de versioning des microservices, échange de données optimisé, utilisation du AWS Storage Gateway, Redshift, DDD (Domain-Driven Design) et Boun-ded Contexts, Product Line Architecture, Single-Sign-on-Con Concept (SSO), etc.
24. Recherche et analyse des données disponibles sur les incidents de sécurité et le piratage informatique pour l'apprentissage machine classique (Spark MLlib etc.) et l'apprentissage approfondi (TensorFlow, PyTorch). Il existe une centaine de sources différentes, mais avec un étiquetage de qualité différente, des efforts de conversion et d'adaptation différents, etc.
25. Génération de notre propres données de sécurité informatique pour l'apprentissage machine (ML) via des environnements Linux et Windows entièrement équipés (PC, vmWare), dans lesquels environ 50 outils PenTesting comme MetaSploit, Auto-Sploit etc. ont été exécutés. Instructions pour normaliser et lier les données ainsi créées ainsi que les données externes. Création/extraction d'expressions régulières et génération d'attaques/charges utiles similaires sur cette base.
26. Conception + développement d'une bibliothèque de contrôle en Scala pour la reconnaissance et l'IA, qui surveille et contrôle tous les éléments clés du SOC.
27. Conception + développement d'une bibliothèque d'interface utilisateur et de requêtes en Scala, qui visualise des analyses intelligentes dans le tableau de bord Kibana avec React et effectue la cartographie des requêtes en SQL, HQL, Solr et dialectes similaires via Apache Drill avec Drillbits. Ici, nous avons largement recréé le SPL (Search Processing Language) de Splunk comme notre OPL (Open Processing Lanaguage). C'est essentiellement SQL étendu par des informations sur la représentation dans l'interface utilisateur.
28. Recherche/analyse/extension des idées/outils actuels à des points de friction techniques dans les (sous-)projets ou proposition directe de solutions :
a. Analyse des outils sémantiques, de l'intelligence artificielle symbolique et de l'intelligence artificielle explicable pour le programme de financement IA pour la sécurité ainsi que pour les nouveaux modules de travail : KL-ONE : Protégé, LOOM, Knowledge Engineering Environment (KEE), Pellet, RacerPro, FaCT+++ & HermiT, Non-Linear Planner, CBR (Case-Based Reasoning), RDF (Resource Description Framework)/SPARQL (SPARQL Protocol and RDF Query Language), OpenCog (AtomSpace, Atomese, MOSES/MetaCog, Link-Grammar), technologie d'induction/déduction telle que OWL/OWL-DL (Ontology Web Language Description Logics), implémentation leader : Apache Jena OWL, HPSG (Head-driven Phrase Structure Structure Grammar) Analyse : DELPH-IN PET Parser, Enju, Grammix, Stanford CoreNLP, OpenEphyra, Frame-Logic, Explainable AI avec LOCO (Leave-One-Covariate-Out).
b. NLP (Natural Language Processing) / Computational Linguistics Research & Evaluation : Analyser/analyser les images de scènes naturelles ainsi que l'analyse textuelle des légendes/descriptions d'images de l'Internet pour former des modèles de traitement d'images (approche Stanford CoreNLP) ; classer les tickets d'incidents / textes en catégories/réalités ; maintenance / leçons tirées : Analyse des rapports textiles des techniciens sur les problèmes informatiques/de conduite et les difficultés de conduite autonome (classifications/réactions erronées) pour les connaissances/feedbacks au niveau NLP.
Outils/Algorithmes : OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretrai-ning), Facebook PyText (NLP Modeling Framework, on PyTorch), Google BERT (Bidirectional Encoder Representations from Transfor-mers), Combined Multi-Task Model NLP, Pre-training of complete (language/depth learning) models with hierarchical representations, attentional models, DLNLP (Deep Learning NLP : Embed, Encode, Attend, Predict), HMTL (Hierarchical Multi-Task Learning Model), algorithmes d'apprentissage semi-supervisés pour créer des étiquettes proxy sur des données non marquées, BiLSTM, approche SalesForce MetaMind, Deep-Mind, Deep-Mind, Deep Transfer Learning for NLP, modèles linguistiques préformés, incorporation de mots / sacs à mots, Modèles de séquence à séquence, réseaux basés sur la mémoire, apprentissage inverse, apprentissage du gain, identification sémantique des rôles, apprentissage de la représentation, classification de texte avec les estimateurs TensorFlow, word2vec, modèle vectoriel-espace/cartographie des caractéristiques à intégrer, sauter des grammes, Seq2seq Encoder Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, BERT, Transfer Learning, OpenAI Transformer, spaCy + Cython for Acceleration, genSim, OpenNMT (Neural Ma-chine Translation), AllenNLP (on PyTorch), OpenNLP, Amplification Learning for learning correct classifications/label assignments/Qestions & Answers, Mo-delle variable profondément latente, Visual Commonsense Season Reasoning, Model Diagnostic Meta-Learning (MAML), Multi-Hop Thinking, Attention Masks for (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (partie d’IBM Watson).
c. Pour la génération NLP : OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Google BERT (Bidirectional Encoder Representations from Transformers).
d. AI / AI / Science des données / Big Data: Algorithmes et outils: Vs LSTM. GRU, Feast AI Feature Store, Injecteur de sidecar K8s, TensorFlow 2.0 (Avantages de la mise à jour / migration), Compréhensions du tenseur, Nouvelles équations différentielles ordinaires, Raisonnement visuel à sens commun, Apprentissage en profondeur, RNN, CNN pour voitures autonomes / Logique génération virtuelle de villes 3D cohérente sur le plan temporel, étiquetage en profondeur pour la segmentation d’images sémantiques avec Keras / TensorFlow, modèles de conception pour l’apprentissage en profondeur, RNN, architectures CNN, DeepMind (Kapitan, agent évolutif, apprendre à apprendre, agents d’apprentissage par renforcement de TF), Via QoS (gestion de la charge QoS), Fusi-on.js (infrastructure JS prenant en charge React, Redux &, une plate-forme optimisée préconfigurée, rechargement de module à chaud, rendu côté serveur orienté données, scission de paquet, architecture de plug-in, observabilité, I18n), Horovod (cadre de formation distribué pour Tensor Flow, Keras, PyTorch), Ludwig (former et tester des modèles d'apprentissage en profondeur sans codage), AresDB (moteur d'analyse en temps réel alimenté par GPU d'Uber), Uber's Sparse Blocks Network ( SBNet, Te algorithme nsorFlow), cadre d’apprentissage Google Renforcement basé sur TensorFlow, opérateur Kubernetes pour Apache Spark, Apprentissage approfondi FastAI, Poly-gon-RNN ++, Flow Framework: Processus agile de produit à produit, OpenVINO en ligne (composant de service d’inférence pour AI) modèles), environnement informatique distribué Intel Nauta pour la formation aux modèles DL, Tensor Flow Extended (TFX), Salesforce Einstein Transmogrif AI (Automatisation de l’apprentissage par machine avec AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (traitement modèles ML de dimension supérieure), Acumos AI (conception, intégration et déploiement de modèles d’IA; AI Model Marketplace), (Cadre EDL Paddle: Elastic Deep Learning: optimise le travail d’apprentissage en profondeur et le temps d’attente dans le cluster: Contrôleur Kubernetes et cadre d’apprentissage en profondeur tolérant aux pannes: Paddle Paddle & Tensor Flow), Pyro (langage de programmation probabiliste profond), Jaeger (système de traçage distribué par système d'exploitation, optimisé pour les microservices).
e. Suggestions d'accélération de l'apprentissage en profondeur p.ex. avec des publications récentes (par exemple, compression de modèle, utilisation de propriétés matérielles) ainsi que l'intégration de connaissances de domaine / sémantique / règles / tables de décision / ontologies / résultats d'explications de connaissances explicables dans l'apprentissage en profondeur; Développement de modèles d'apprentissage hybrides optimisés (apprentissage en profondeur [renforcement] combiné à des méthodes d'apprentissage classiques).
f. Concept pour AIops (opérations d'intelligence artificielle) / Optimisation opérationnelle basée sur l'IA dans le contexte de la gestion et de l'acquisition de métadonnées:
i. Concept pour la mise en œuvre d'un CMS / système de gestion de la sécurité (SGMS) pour minimiser les erreurs humaines dans la programmation / exécution des scripts: tous les paramètres programmés fixes pertinents ont été stockés dans une base de données CMS distincte ou de manière minimale dans une configuration / propriété spécifique à l'environnement Fichiers extraits, ensembles de paramètres pour l'environnement de développement, un pour l'environnement de test, .... dans l'environnement de production (Python NetworkX, Snowflake, ...).
ii. Concept de mise à l'échelle et d'accélération des charges de travail en IA, de gestion des charges de travail complexes, d'accélération du développement et du déploiement de modèles statistiques, de pré-optimisation des plates-formes de charges de travail en IA : Acquisition et préparation des données, modélisation et formation des données, mise à disposition et exploitation des données, intégration de l'apprentissage machine avec des plans pré-établis pour le chef, la marionnette, le flux d'air et l'approvisionnement automatique de la capacité de stockage, Optimisation prédictive de la mémoire (dans des environnements hyperconvergents), IA qui configure le matériel d'accélération d'application hyperconverti, le mot de passe et la découverte de PII (Personally Identifiable Information) pour savoir quand démarrer les charges avec des exigences et durées CPU/GPU élevées (qui ne sont actuellement pas disponibles).Par exemple, les impasses, les problèmes d'échéancier ou d'autres emplois peuvent devoir attendre), quand commencer des emplois d'apprentissage approfondi ou d'IE avec une priorité moindre et quand transférer des ressources vers des emplois ou des charges hautement prioritaires, quand commencer des processus de collecte de diagnostics après des avertissements, des erreurs ou des défaillances, ....
29. Analyse NLP (Natural Language Processing) du journal et du contenu web :
a. Extraction de contenu IoC (Indicateur de compromis) en texte continu au format STIX pour un traitement ultérieur semi-automatisé, comme la recherche automatisée de hachage de fichiers, l'analyse et le blocage des ports ouverts et des connexions entrantes/sortantes.
b. Catégorisation sémantique (catégorie de problème, gravité de l'erreur et effets/risques possibles, urgence) et analyse NLP textuelle du contenu des logs avec genSim, spaCy et en partie aussi avec Google BERT, GPT, Graph-ConvNets avec Octavian, Google Sling, TensorFlow graph_nets & gcn (Graph Convolutiontional Networks), PyTorch Geometric.
30. Conseil en science des données ainsi que les concepts de gestion et de conversion pour les modèles d'apprentissage machine avec ONNX (Open Neural Network Exchange : Optimiseur haute performance et moteur d'inférence pour les modèles d'apprentissage machine et convertisseur entre les formats TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer).
Approche DS (Data Science) Un mélange de détection d’anomalies, d’analyse en composantes principales, de méthodes du voisin le plus proche, de réseaux de neurones, d’analyses de séries temporelles + analyse de saisonnalité, de détection d’anomalies, d’association, d’estimateur de vraisemblance maximale, de forêt aléatoire, de renforcement de gradient, de CatBoost, LightGBM, SHAP (SHapley Additive ExPlanations), ensembles empilés, mélange, MART (arbres de régression additifs multiples), AutoML, Auto-Keras, Dopamine, Modèles linéaires généralisés (GLM), Forêt aléatoire distribuée (DRF), eXtremely Randomized Tree (XRT) , Etiquetage / Etiquetage, Agrégation Bootstrap (ensachage), Caractéristique de fonctionnement du récepteur / AUC, Cubiste (extension de l'arbre modèle M5 de Quinlan), C4.5, Analyse d'association, Régression (non) linéaire, Régression multiple, Analyse de priorité, Analyse Classification, réseaux d'analyse de liens; TensorFlow + Keras et PyTorch - également pour l'analyse de sécurité sémantique: étiquetage et apprentissage supervisé pour une classification correcte, réglage hyper-paramètre distribué. diagrammes de dépendance partielle [fuites de modèle, déclarations dans des déclarations if, ....]; Stockage de modèles en PMML avec OpenScoring.io et HBase / MapR-DB + Apache Phoenix, visualisation des métadonnées, indicateurs de performance clés, réduction de la dimension UMAP, STN-OCR.
Bibliothèques / Outils Docker, Kubernetes, Scala, Python, Airflow, Kubeflow, CeleryExecutor, RADOS + Ceph, pile TensorFlow avec Keras, AutoKeras ou PyTorch + Auto-PyTorch + AddOns (Ignite, PennyLane, Géométrique), À propos de Horovod, Apache Spark Stack avec Spark Stark , Spark SQL, MLlib, GraphX, Alluxio, TransmogrifAI, Alluxio, TensorFlowOnSpark, PySpark avec Optimus, Jupyter, Zeppelin, PyTorch, MXNet, Entraîneur, Keras, Horovod, XGBoost, CatBoost, RabbitMQ, ONRX, Hydrhibing, serveur (Agility Continuous Testing Agility), Red Hat OpenShift, Elastic / ElasticSearch, Cloud hybride MS Azure, Kafka, Proxy Kafka-REST, Intégration KafkaCat, Confluent, Ansible, OpenTSDB, Apache Ignite avec TensorFlow / ML, CollectD, Python 3.x. , Flask (Microframework Python: REST, UI), Programmation fonctionnelle Coconut pour Python, Robot Framework (ATDD), CNTLM, Samba, Nginx, Grafana, Jenkins, Nagios, Databricks (Spark, Kafka, Connectors) à R, TensorFlow, etc.), schéma de flocon de neige, Scik it-Learn, RHEL, Ubuntu, Scrum + Design Thinking + SAFE.
Outils PenTesting: AutoSploit, Metasploit, Burp Suite, Nexpose, Nessus, Tripwire, Impact CORE, Kali Linux, Snort, Bro, Argus, SiLK, tcpdump, WireShark, parosproxy, mitmproxy, nmap, Security Onion, Bro, Sguil, Squert, CyberChef, NetworkMiner, Soie, Netsniff-NG, Syslog-NG, Sténographe, osquery, Réponse rapide GRR, Sysdig Falco, Fail2Ban, ClamAV, Rsyslog, Recherche et archivage de journaux d’entreprise (ELSA), Nikto, OWASP Zap, Naxsi, modsecurity, SGU , Mimikatz, Impact CORE, Kali Linux.
Outils de traitement des journaux: OpenSCAP, Moloch, ntopng, plugins Wireshark +, analyseur de messages Fluentd, requêtes SQL: SploutSQL, Norikra + Esper (traitement des flux / événements)
Cyber Grand Challenge (CGC) Outils: BinaryAnalysisPlatform bap, angr, s2e, KLEE, AFL (lop fuzzy lop), Strace, ZZUF, Sulley / boofuzz, BitBlaze, Shellphish / Mechaphish Outils: how2heap, fuzzer, driller, rex
Protocoles: AES, RSA, SHA, Kerberos, SSL / TLS, Diffie-Hellman
DBs: HBase + Phoenix, Hive, PostgreSQL, Druide, Aérospike, Hive, Lucene / Solr / Elasticsearch, SploutSQL
Pile NLP avec Google BERT / Sling, spaCy, GPT-2, Stanford CoreNLP, AllenNLP, OpenEphyra, analyseur DELPH-IN PET, Enju, Grammix
Outils logiques / sémantiques: Protégé, LOOM, RDF (Framework de description de ressources) / SPARQL, OpenCog, Apache Jena OWL, Frame Logic
Bibliothèques OCR / ICR: moteur OCR Tesseract, OCRopus, Formcraft, Kofax KTM (modules de transformation Kofax), STN-OCR
Autres outils de sécurité: IDS / IPS, NetFlow et des outils de collecte et d’analyse de journaux, tels que Snort, Suricata, Bro, Argus, SiLK, tcpdump ou WireShark, Analyse de logiciels malveillants à base de coucous, Désassembleur, Surveillance Prometheus, OCS Inventory NG, Configuration du système + Analyse d'activité: Sigar, Config. Découverte, vérificateur de l'intégrité des fichiers (Afick), flux de données Apache Nifi / Hortonworks, pile élastique (battements, logstash, Elasticsearch, Kibana, réaction + Kibana, pile Solr (SolrCloud, client SolrJ, banane), Apache Drill Queries, UIs, développement de Drillbits , DSL (Domain Specific Language), Parser Eclipse, JavaCC, Antlr, Lex, yacc / bison, Flex, JFlex, Parseur GLR / LALR / LL, Ansible, Juju, MAAS, Kubernetes / K8s + Docker, Minikube, Microk8s le cas échéant, Réponse aux incidents Flash, HDFS, Data Lake, Zookeeper, Hive, JDBC, Outils de gestion (Ambari, Ranger, etc.), Mode sécurisé Hadoop, SSO (Single Sign-On), Gestion des identités et des accès (IAM / IdM), LDAP, Mappage de rôles, Kerberos, TLS, OAuth, OpenId Connect.
SOC SIEM Cybersécurité Computer Vision Kubernetes Docker Cloud computing
BNP Paribas Personal Investors (Consorsbank, DAB)
Coach: Architecture des données, aspects de la science des données et évaluation des cas d'utilisation
BANQUE & ASSURANCES
avril 2017 - septembre 2017 (5 mois)
Nuremberg, Allemagne
Préparer ou acheter des décisions de marketing en matière de marketing concernant une solution interne de publicité programmatique pour la vente croisée entre différents points de contact clients, l'offre dynamique, l'optimisation du NPS (Net Promoter Score) et les ventes DDS (Data Driving Sales) via la plate-forme de gestion des données (DMP).
1. Conseil en stratégie de marketing par le biais d'une réflexion de conception avec cartographie du parcours client et documentation des points de contact ou des interactions entre le client et l'entreprise, en transmettant les connaissances pertinentes sur les dernières approches de marketing programmatique et les bases de la science des données correspondantes. Introduction aux plates-formes de données clients (CDP) et aux plateformes d'automatisation du marketing (MAP). Les discussions de l'équipe d'intervention tactique (Forces, Faiblesses, Opportunités, Menaces) sont amorcées et présidées.
2. Recherche de fournisseurs potentiels dans les domaines susmentionnés, en particulier sur les plates-formes de données clients (CDP) et les plateformes d'automatisation du marketing (MAP) et contact avec les fournisseurs: IBM Interact, Oracle Real-Time Decisioning (RTD), SAS Customer Decision Hub, Pega Customer Decision Hub, Adobe Marketing Suite/Cloud, Prudsys, SC-Networks Evalanche, PIA/Dymatrix DynaCampaign, DynaMine.
3. Élaboration des cas d'utilisation selon l'approche Use Case 2.0 (y compris MVP - Minimal Viable Product) avec l'équipe marketing (axée sur les besoins éventuels en temps réel / cas d'utilisation) et évaluation des flux de trésorerie possibles ainsi que les différents KPI tels que le ROI, NPV (Net Present Value), IRR (Internal Rate of Return), WSJF (Weighted Shortest Job First), (Net Promoter Score), NBI (Net Banking Income).
4. Créer une architecture Hadoop de base avec une estimation de l'effort comme solution possible basée sur Apache Spark avec streaming, Alluxio Caching, QBit Microservices, Aerospike DB, Cassandra DB, jBPM, Drools, Oryx 2, WEKA, MOA, Sqoop 1/2, SAS. Il a ensuite été utilisé pour l'achat afin de négocier les prix.
5. Consultation sur les algorithmes possibles de la science des données autour du système KNIME pour la segmentation de la clientèle et la dérivation d'affinités produit ou marketing / intérêts potentiels de la clientèle et parcours clients: DynaMine, gradient boosting (xgboost), régression non linéaire, foresterie aléatoire, C4.5, etc.
6. Consultation du projet parallèle "Corporate Data Hub" basé sur Spark, Cassandra DB et PostgreSQL, en particulier en ce qui concerne les possibilités de connexion avec les solutions marketing et la manière dont elles peuvent être utilisées comme PoC (Proof of Concept) pour le centre de données.
7. Conception d'une extension du produit Dymatrix DynaCampaign appelé HintLog: Avec un minimum d'effort, tous les participants aux programmes de bonus ou de marketing pourraient recevoir des messages, si des erreurs se produisaient ou s'ils risquaient de décrocher du programme en raison d'une réglementation détaillée: les clients avaient alors généralement des délais prolongés et donc la valeur NPV pourrait être considérablement augmentée en évitant les situations gênantes (c'est-à-dire la satisfaction du client)
8. Consultation sur l'introduction de l'approche Use Case 2.0, ainsi que sur l'introduction ultérieure de nouveaux principes Lean-Startup, ainsi que sur les micro-services, l'architecture évolutive, la connexion à une application mobile et le développement de versions appropriées.
9. Examen des modèles de BPM existants à Camunda et extension de ces modèles à Camunda avec de nouveaux cas d'utilisation pour le marketing et les campagnes.
10. Concept pour l'analyse sémantique et le contrôle des campagnes de marketing en fonction, par exemple, des intérêts des clients, de la situation des clients, des tendances actuelles du marché ainsi que des intérêts de l'entreprise, par exemple, sous forme d'actions combinées/concertées de remises entre les différentes parties de l'offre ou pour réitérer des déclarations marketing supérieures dans des actions subordonnées et pour obtenir une cohérence et une rigueur globales dans les déclarations. Les emplacements/segments de clientèle, les intérêts et les besoins d'assistance reconnus peuvent être utilisés aussi précisément que possible, de sorte qu'ils soient appréciés par les clients comme utiles et qu'ils puissent être recommandés plus tard (produit/service) sur une base de confiance.
11. Traitement du langage naturel (NLP) : Analyse des retours d'informations/états d'âme des clients avec spacy.io en Python (Net Promoter Score (NPS) enquête et amélioration).
12. Participation au projet Digital David en tant que consultant en technologie et NLP, création d'un chatbot avec la technologie IBM Watson (maintenant en ligne sur consorsbank.de) : Vision : Chatbot qui connaît toutes les préférences d'investissement et bancaires des clients, y compris les comptes, dépôts et numéros WKN/ISIN avec graphiques / tendances / dépendances et toute recherche des opportunités d'investissement (avec RoboAdvisor en fond) et réalise ainsi une fidélité élevée des clients et un chiffre de vente important. Mon travail : Analyse des efforts attendus en matière de scripts de dialogue texte (en raison de fonctionnalités techniquement dépassées pour les développeurs de chatbot) et du coût total de possession (TCO) de la solution IBM-Watson et comparaison avec une nouvelle architecture DLNLP (Deep Learning Natural Language Processing) basée sur l'Open Source dans le cadre de négociations tarifaires pour les achats : Éléments de mon architecture chatbot open source avec les outils DLNLP (Deep Learning Natural Language Processing) : Seq2seq, word2vec, ULM-FiT, ELMo, OpenAI Transformer / GPT, Transfer Learning, OpenAI Transformer, spaCy, Stanford Co-reNLP, AllenNLP et virtualisation avec Docker/Kubernetes pour une formation dans le cloud.
Analyse de séries temporelles, détection d'anomalies, analyse a priori, classification surveillée, analyse d'association, estimateur de vraisemblance maximum, techniques de segmentation de la clientèle, par exemple selon Personas avec KNIME, DynaMine, gradient boosting (xgboost), régression non linéaire, Forêts aléatoires, C4.5.
RedHat OpenShift, Red Hat 3scale API Management, IBM Watson, Cloudera Hadoop, Apache Spark avec Streaming et MLlib, netty, LMAX Disruptor, Cassandra DB und PostgreSQL, Aerospike, KNIME, DynaMine, SAS, DynaCampaign, MS Visio, Sparx Enterprise Architect, Camunda, JBoss Drools, Scrum, Large Scale Scrum (LeSS).
Groupe Schwarz (Lidl & Kaufland), le plus grand groupe européen de vente au détail : BI & Analytique: en ligne et hors ligne
Coach: Architecture et Science des données
GRANDE DISTRIBUTION
septembre 2017 - décembre 2017 (3 mois)
Stuttgart, Allemagne
Développement de plates-formes et d'environnement pour divers sous-projets d'analyse prédictive (notamment pour les effets marketing et les prévisions de la chaîne d'approvisionnement en ce qui concerne les quantités/ prix nécessaires, etc.)
1. Pour les but de familiarisation & coaching: évaluation de la situation actuelle en ce qui concerne les outils, algorithmes et environnements informatiques; coopération dans la création d'Ab Initio Graphes/Lineages en tant que pipeline ETL avec intégration de Teradata BTEQs/ActiveBatch/SQL, R, Python, Spark, Hive, SAP, Microstrategy.
2. Conseil en architecture Big Data: R on Spark avec SparklyR vs SparkR, Optimisation des requêtes Hive/Beeline, intégration avec Teradata QueryGrid/Teradata Connector for Hadoop (basé sur Sqoop).
3. Conception et développement de conduites AbInitio ETL avec GDE/TRMC/EME, Express>It (BRE), Conduct>It (CC), Query>It, Metadata Hub (EME).
4. Suggestion et conseil concernant la définition/sélection des cas d'utilisation de la BI et de l'analytique : Promotions (offres spéciales/modifications de prix (PV)), tarification dynamique, schéma de cuisson, gestion des catégories, facteur palette, tri des colis, missions d'achat, planification des achats, planification logistique, planification des réexpéditions/retours.
5. Participation aux processus de modélisation prédictive de la logistique et à la prédiction de l'effet des offres spéciales de rabais et de diverses mesures publicitaires.
6. Conseil sur le choix d'un outil de gestion de workflow : Oozie, ActiveBatch, Azkaban (LinkedIn), Airflow (Airbnb), Scripting.
7. Concept d'autorisation avec Apache Ranger, base de données de droits et LDAP pour Hortonworks Hadoop.
8. Développement d’un packaging multiplateforme, versionnage, déploiement et gestion des dépendances pour Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP, Ab Initio, MicroStrategy avec Conda/Anaconda, Python, sbt, Java 9, Java Platform Module System (JPMS) = Project Jigsaw, etc.
9. Concepts de virtualisation créés pour tous les outils avec VMware, Docker, Kubernetes et Rancher, y compris la connectivité réseau, le débogage, le suivi et la surveillance.
10. Création d'un concept complet de gestion des tests de 400 pages comprenant des tests ETL et BI avec sécurité informatique pour 6 environnements de test : Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP, Ab Initio, MicroStrategy et intégration/déploiement continuel avec Jenkins et Sonar (Qube).
Forêt aléatoire, Gradient Boosting (GBM, xgboost), Cubiste (extension de l'arbre M5 modèle de Quinlan), Analyse des séries temporelles, Analyse d'association, Régression (non linéaire), Régression multiple, Détection des anomalies, Analyse a priori, Analyse du panier, Classification surveillée, Réseaux d'analyse de liens, Estimateurs de probabilité maximale, Méthode classique et de détection de fraude à plusieurs niveaux (voir section séparée).
OpenStack, Docker, Kubernetes, Rancher, Python, R, Big Data (Spark, Hive, etc.), PySpark avec Optimus, Teradata, SAP, Ab Initio, Microstrategy, MS Visio, Scrum, Large Scale Scrum (LeSS).