Formation Big Data et Intelligence Artificielle

Traitement distribué pour les Big Data

Apache Spark

réf : SI43-18

  • DATES : Formation programmée à la demande - Nous consulter
  • DURÉE : 2 jours - 14 heures
    Voir le programme
  • LIEU : Paris
    Voir le plan
  • PRIX : 1950 € HT  -  Restauration offerte
Ce module aborde le traitement distribué des données par l’utilisation d’Apache Spark (>2.0). Spark est la technologie de l’écosystème Hadoop qui a le plus le vent en poupe dans les entreprises. Spark se veut être une réponse aux limitations de MapReduce et permet dans un même environnement d’accéder facilement à des cas d’utilisation très variés (Manipulation de données non structurées, Analyses SQL, Traitement Streaming, Machine Learning, Analyse de graphes…) et ce d’une manière plus performante bien sûr toujours scalable. L’objectif de ce module est d’apprendre à utiliser cet outil et de disposer d’une vue d’ensemble des fonctionnalités riches et puissantes de Spark. Ce module a pour but de délivrer la connaissance sur le plan théorique mais également sur le plan pratique de manière à être en mesure de faire les bons choix dans son utilisation.

Rester informé des mises à jour par e-mail

Programme+

  • Système distribué et Spark
    • Motivations et introduction, la « révolution » du Big Data. Hadoop et l’émergence de Spark
    • Présentation de Spark
  • Spark Core
    • Présentation de Spark Core (RDD simple et pairs) et premières interactions avec Spark
  • Spark SQL
    • Présentation de Spark SQL
    • Les data frames
    • Manipulations sur des données relationnelles
  • Spark streaming
    • Présentation de Spark Streaming
    • Manipulation : création de job Spark streaming. Remontées d’erreurs générées par un service web ou fichiers de log déposés sur HDFS
  • Spark ML
    • Rappel d’un pipeline de Machine Learning et application avec Spark ML
    • Manipulation : Implémentation d’un pipeline complet de Machine learning et mesure de performances des modèles

Objectifs+

COMPRENDRE le positionnement de Spark et ses apports par rapport à Hadoop MapReduce
DISPOSER des bases techniques pour aborder les différentes libraires de Spark (Spark Core, SQL, Streaming et ML)
ETRE EN MESURE de savoir quand et comment utiliser Spark par rapport aux technologies non distribués (Python, R, ..) ou liées à l’écosystème Map Reduce (Pig, Hive, Impala..)

Profil des participants+

Managers des systèmes d’information, ingénieurs recherche et développement, experts en business intelligence, chefs de projet, consultants techniques, dataminers

Corps enseignant+

Marie-Aude AUFAURE
Directrice pédagogique Big Data, CentraleSupélec

Demande d'information+

Traitement distribué pour les Big Data - Apache Spark

Informations CNIL

Les données personnelles recueillies dans ce formulaire font l'objet d'un traitement automatisé conforme à la norme simplifiée 48 qui concerne les traitements relatifs à la gestion de clients et de prospects (délibération n°2012-209 du 21 juin 2012 de la CNIL). Les informations collectées sont destinées aux services de la Formation Continue. Vous pouvez exercer votre droit d'accès et de rectification prévus par la loi en vous adressant par courrier électronique à cil@centralesupelec.fr.