Spark en Python : analyse de données et machine learning
Spark en Python : analyse de données et machine learning
Objectifs de la formation
- Comprendre le principe de fonctionnement d’Apache Spark
- Utiliser PySpark pour manipuler des données avec Python
Public visé
Cette formation s’adresse à toute personne intéressée par la technologie Spark et sa mise en œuvre avec le langage Python.
Pré-requis
Cette formation ne nécessite aucun pré-requis même si une connaissance de base du langage Python est recommandée.
Programme
Jour 1 – Matin
Introduction au big data
- Environnements big data : Mapreduce, Spark, etc.
- Découvrir l’environnement Spark
- Utilisation Spark : Quels avantages ?
- Comment installer Apache Spark
- Quelle infrastructure pour utiliser Spark en entreprise ?
- Les principes et fonctionnement de l’environnement Spark : RDD, DataFrame, DataSet…
Jour 1 – Après-midi
Manipuler des données avec Python, Pyspark
- Rappels sur Python et la manipulation des données
- Utilisation de SparkSQL et des DataFrames pour manipuler des données
- Bonnes pratiques de Spark pour la manipulation de volume important de données
Jour 2 – Matin
L’exploration de données d’entraînement massives
- Réalisation de statistiques de base avec SPARK
- Exploitation des librairies graphiques statistiques dans un cadre Big Data
- Exploration de données d’entraînement sur un cas concret
Jour 2 – Après-midi
Le « Pipelining »
- Le concept de Pipeline Spark
- Les composants d’un Pipeline
- Le fonctionnement d’un Pipeline
- La gestion des paramètres
- Persistance et chargement de Pipelines
Exemples de travaux pratiques (à titre indicatif)
Création d’un premier pipeline d’apprentissage machine avec SPARK
Jour 3 – Matin
Le prétraitement et l’ingénierie des variables prédictives
- Classification de données massives
- Régression de données massives
- Clustering de données massives
- Systèmes de recommandation Big Data
- Règles d’association de données massives
Exemples de travaux pratiques (à titre indicatif)
Réalisation de modèles d’apprentissage sur des cas concrets Big Data
Jour 3 – Après-midi
L’optimisation du réglage des modèles d’apprentissage
- Réglage des hyper-paramètres des modèles
- Validation croisée
- Séparation des données (entraînement, validation)
Exemples de travaux pratiques (à titre indicatif)
Optimisation du réglage de modèles d’apprentissage sur cas concrets