Spark-en-Python

Spark en Python : analyse de données et machine learning

Spark en Python : analyse de données et machine learning

Objectifs de la formation

  • Comprendre le principe de fonctionnement d’Apache Spark
  • Utiliser PySpark pour manipuler des données avec Python

Public visé

Cette formation s’adresse à toute personne intéressée par la technologie Spark et sa mise en œuvre avec le langage Python.

Pré-requis

Cette formation ne nécessite aucun pré-requis même si une connaissance de base du langage Python est recommandée.

Programme

Jour 1 – Matin

Introduction au big data

  • Environnements big data : Mapreduce, Spark, etc.
  • Découvrir l’environnement Spark
  • Utilisation Spark : Quels avantages ?
  • Comment installer Apache Spark
  • Quelle infrastructure pour utiliser Spark en entreprise ?
  • Les principes et fonctionnement de l’environnement Spark : RDD, DataFrame, DataSet…

Jour 1 – Après-midi

Manipuler des données avec Python, Pyspark

  • Rappels sur Python et la manipulation des données
  • Utilisation de SparkSQL et des DataFrames pour manipuler des données
  • Bonnes pratiques de Spark pour la manipulation de volume important de données

Jour 2 – Matin

L’exploration de données d’entraînement massives

  • Réalisation de statistiques de base avec SPARK
  • Exploitation des librairies graphiques statistiques dans un cadre Big Data
  • Exploration de données d’entraînement sur un cas concret

Jour 2 – Après-midi

Le « Pipelining »

  • Le concept de Pipeline Spark
  • Les composants d’un Pipeline
  • Le fonctionnement d’un Pipeline
  • La gestion des paramètres
  • Persistance et chargement de Pipelines
Exemples de travaux pratiques (à titre indicatif)

Création d’un premier pipeline d’apprentissage machine avec SPARK

Jour 3 – Matin

Le prétraitement et l’ingénierie des variables prédictives

  • Classification de données massives
  • Régression de données massives
  • Clustering de données massives
  • Systèmes de recommandation Big Data
  • Règles d’association de données massives

Exemples de travaux pratiques (à titre indicatif)

Réalisation de modèles d’apprentissage sur des cas concrets Big Data

Jour 3 – Après-midi

L’optimisation du réglage des modèles d’apprentissage

  • Réglage des hyper-paramètres des modèles
  • Validation croisée
  • Séparation des données (entraînement, validation)
Exemples de travaux pratiques (à titre indicatif)

Optimisation du réglage de modèles d’apprentissage sur cas concrets