Expert en data science

Descriptif

Elle vise à certifier des experts en statistique, en intelligence artificielle et en apprentissage automatique ; des professionnels capables de conduire des projets complexes d’analyse et de modélisation des données, pour répondre à des problématiques métier (visualisation, appui à la décision, prédiction, classification, traitement de données non structurées tel que du texte ou des images, déploiement de modèles d’apprentissage automatique dans un environnement Cloud, etc.).

Objectifs

Compétences attestées :

Définir la stratégie de collecte de données en recensant les API disponibles, et réaliser la collecte des données répondant à des critères définis via une API (interface de programmation) en prenant en compte les normes RGPD, afin de les exploiter pour l’élaboration d’un modèle.
Déterminer les objectifs du nettoyage des données et de la démarche de mise en œuvre, afin de construire un jeu de données adapté à une problématique métier.
Effectuer des opérations de nettoyage sur des données structurées, notamment l’identification d’outliers et le remplissage de données manquantes, dans le respect des normes en vigueur (RGPD) afin de proposer des données exploitables pour une problématique métier.
Effectuer des analyses statistiques univariées et multivariées, notamment des tests statistiques, à partir de données structurées et nettoyées afin de présenter leur distribution, valider leur cohérence et détecter des corrélations.
Représenter des données grâce à des graphiques afin d’expliciter et justifier les analyses réalisées.
Utiliser des techniques appropriées de réduction en deux dimensions de données de grande dimension, et les représenter graphiquement afin d'en réaliser l'analyse exploratoire.
Sélectionner, transformer et créer les variables pertinentes d'un modèle d'apprentissage supervisé ou non supervisé (feature engineering) afin de réaliser un apprentissage optimal.
Pré-traiter des données non structurées de type texte en prenant en compte les normes liées à la propriété intellectuelle, et réaliser un feature engineering adapté aux modèles d'apprentissage afin d’obtenir un jeu de données exploitables.
Pré-traiter des données non structurées de type image en veillant au respect du droit à l’image et réaliser un feature engineering adapté aux modèles d'apprentissage afin d’obtenir un jeu de données exploitables.
Réduire la dimension de données de grande dimension, afin d'optimiser les temps d’entraînement des modèles.
Définir la stratégie d’élaboration d’un modèle d’apprentissage supervisé, sélectionner et entraîner des modèles adaptés à une problématique métier, afin de réaliser une analyse prédictive.
Évaluer les performances des modèles d’apprentissage supervisé selon différents critères (scores, temps d'entraînement, etc.) en adaptant les paramètres afin de choisir le modèle le plus performant pour la problématique métier.
Définir la stratégie d’élaboration d’un modèle d’apprentissage non supervisé, sélectionner et entraîner des modèles adaptés à une problématique métier afin de réaliser une segmentation ou une réduction de données.
Évaluer les performances des modèles d’apprentissage non supervisé selon différents critères (scores, temps d'entraînement, etc.) en adaptant les paramètres afin de choisir le modèle le plus performant pour la problématique métier.
Définir la stratégie d’élaboration d’un modèle d'apprentissage profond, concevoir ou ré-utiliser des modèles pré-entraînés (transfer learning) et entraîner des modèles afin de réaliser une analyse prédictive.
Évaluer la performance des modèles d’apprentissage profond selon différents critères (scores, temps d'entraînement, etc.) afin de choisir le modèle le plus performant pour la problématique métier.
Utiliser des techniques d’augmentation des données afin d'améliorer la performance des modèles.
Définir et mettre en œuvre un pipeline d’entraînement des modèles, avec centralisation du stockage des modèles et formalisation des résultats et mesures des différentes expérimentations réalisées, afin d’industrialiser le projet de Machine Learning.
Mettre en œuvre un logiciel de version de code afin d’assurer en continu l’intégration et la diffusion du modèle auprès de collaborateurs.
Concevoir et assurer un déploiement continu d'un moteur d’inférence (modèle de prédiction encapsulé dans une API) sur une plateforme Cloud afin de permettre à des applications de réaliser des prédictions via une requête à l’API.
Définir et mettre en œuvre une stratégie de suivi de la performance d’un modèle en production, et en assurer la maintenance afin de garantir dans le temps la production de prédictions performantes.
Sélectionner les outils du Cloud permettant de traiter et stocker les données d'un projet Big Data conforme aux normes RGPD en vigueur, afin de concevoir une application de qualité supportant le traitement de données massives.
Pré-traiter, analyser et modéliser des données (en veillant à leur conformité RGPD) dans un environnement Big data en utilisant les outils du Cloud, afin de concevoir une application sécurisée de qualité supportant le traitement de données massives.
Réaliser des calculs distribués sur des données massives en utilisant les outils adaptés et en prenant en compte le RGPD, afin de permettre la mise en œuvre d’applications à l’échelle.
Réaliser une veille sur les outils et tendances en data science et IA afin de mettre à jour son expertise et de s’assurer que les méthodes utilisées mobilisent bien les techniques en vigueur.
Organiser l’identification des besoins métiers d’un projet de Data Science / IA et formaliser ces besoins sous forme de user stories afin de réaliser des solutions adaptées aux besoins des clients.
Identifier les ressources humaines, techniques et financières d'un projet de data science afin de mettre en œuvre la conception et la réalisation de modèles ou d'applications mettant en œuvre des modèles.
Intégrer le respect des contraintes légales et éthiques relatives à la collecte de données personnelles afin de respecter les règles du RGPD et maîtriser les problématiques d'éthique des données personnelles traitées.
Analyser les risques inhérents au projet et à la gestion des données personnelles et planifier des réponses adéquates aux risques significatifs afin de garantir la maîtrise et la réussite du projet.
Piloter ou participer au pilotage du projet en planifiant les différents sprints afin de permettre la mobilisation des parties prenantes et le bon déroulement du projet.
Réaliser un tableau de bord afin de présenter son travail de modélisation à un public non technique, et adapté à des personnes en situation de handicap en appliquant certains critères d'accessibilité du WCAG.
Rédiger une note méthodologique, contenant notamment le choix des algorithmes testés, les métriques utilisées et l’interprétabilité du modèle proposé, afin de communiquer sa démarche de modélisation.
Réaliser la présentation orale d’une démarche de modélisation à un client interne/externe, afin de partager les résultats et faciliter la prise de décision de l'interlocuteur.

Référencer son offre de formation

Outils pour former et orienter

Diagnostic de son territoire

Ressources professionnelles

Actualités et événements

OFeli

La Place

En un clic

Descriptif

Objectifs

Programme

Module

Métiers visés

Poursuite d'études