Mise en œuvre de solutions de Data Science
Pendant cette formation en Data Science, nous exposons de manière intuitive les principaux modèles des « Data Sciences ». En utilisant des exemples concrets, nous exposons les bonnes pratiques à suivre pour chaque modèle afin de concevoir la solution « Data Science » la plus optimale.
Objectifs de la formation
- Élaborer des solutions Data Science
- Déterminer la préparation et le nettoyage des données
- Effectuer des analyses prédictives
- Gérer et tirer des opportunités métier à partir des informations grâce à la visualisation des données et des résultats
Public concerné
Cette formation s’adresse à toute personne (ingénieur, analyste, concepteur…) intéressée par les Data Sciences et la création de modèles de Machine Learning, les phases de préparation et visualisation des données, la transformation numérique des entreprises.
Programme
Domaine des Data Sciences
- Introduction
- Métiers et domaines d’application
- Tableaux NumPy et opérations mathématiques sur les tableaux
- Manipulation des tableaux (indexation, slicing, reshaping)
- Création et manipulation de Series avec Pandas
- Introduction aux DataFrames
- Importation de données (CSV, Excel, SQL)
- Sélection et filtrage des données
- Manipulation de chaînes de caractères
- Gestion des données manquantes
Visualisation des données
Visualisation de données avec Matplotlib
- Création de graphiques simples (lignes, barres, scatter)
- Personnalisation des graphiques (titres, légendes, axes)
Visualisation de données avec Seaborn
- Graphiques statistiques (distribution, boxplots, pairplots)
- Heatmaps et graphiques de régression
Analyse exploratoire des données
- Statistiques descriptives
- Détection et gestion des outliers
- Exploration des relations entre les variables
Fusion et regroupement de données
- Joins et merges
- GroupBy et agrégations
Techniques de nettoyage des données
- Gestion des valeurs manquantes et des doublons
- Conversion des types de données
- Transformation des données (scaling, encoding)
Concepts fondamentaux de la statistique
- Moyenne, médiane, mode, variance, écart-type
- Distributions de probabilité
Inférence statistique
- Estimation et intervalle de confiance
- Tests d’hypothèse (t-tests, chi-carré)
Régression linéaire
- Concepts de base de la régression linéaire
- Implémentation de la régression linéaire avec Python
Introduction à scikit-learn
- Aperçu de la bibliothèque scikit-learn
- Flux de travail de machine learning (préparation des données, modélisation, évaluation)
Algorithmes de classification
- K-Nearest Neighbors (KNN)
- Arbres de décision
- Métriques d’évaluation des modèles (accuracy, precision, recall, F1-score)
Régression multiple et polynomial
Algorithmes de clustering
- K-means clustering
- Analyse des clusters et interprétation des résultats
Modalités d’évaluation
Évaluation de la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…