Formation Big Data

Traitement distribué pour les Big Data

réf : SI33-17

  • DATES : du 28/08/2017 au 30/08/2017
    Autres dates pour cette formation
    • du 15/01/2018 au 17/01/2018

  • DURÉE : 3 jours - 21 heures
    Voir le programme
  • LIEU : Paris
    Voir le plan
  • PRÉ-REQUIS : Connaissances en bases de données
    Des connaissances en développement informatique sont un plus (la partie pratique est adaptée à des publics de niveaux différents)
  • PRIX : 2590 € HT  -  Restauration offerte
Ce module aborde le traitement distribué des données. Hadoop est la technologie la plus connue dans l'univers des BigData. L’objectif de ce module est d’apprendre à utiliser cet outil qui est le moyen le plus robuste de lancer de larges calculs distribués sur un ensemble de machines. L'écosystème Hadoop est vaste et ce module a pour but de délivrer la connaissance sur le plan théorique mais également sur le plan pratique de manière à être en mesure de faire les bons choix dans son utilisation, donnant ainsi la capacité de mener à bien un projet "Big Data". L’outil Spark sera également abordé dans ce module.

Rester informé des mises à jour par e-mail

Programme+

  • Système distribué
    • Motivations et introduction de la révolution "Hadoop" et son lien avec le big data
  • Haddop
    • Définitions
    • Présentation Hadoop Core : HDFS et Map/Reduce
  • Programmation Hadoop
    • Création de programmes utilisant le Framework Hadoop
  • L'écosystème Hadoop
    • Tour d'horizon de l'écosystème Hadoop
    • Pig et Hive pour l'analyse de données
  • Manipulation Pig et Hive
    • Création de programmes en Pig et Hive en utilisant le framework Hadoop
  • Architecture
    • Les questions à se poser lors de la mise en place d'un cluster Hadoop
    • L'organisation des données
  • Spark
    • Définition et positionnement de Spark par rapport à Hadoop MapReduce
    • Les caractéristiques des RDD (Resilient Distributed Dataset)
    • Présentation des éléments clés du framework et mise en pratique

Objectifs+

COMPRENDRE les outils techniques permettant les calculs distribués à grande échelle
MAITRISER les outils de l'écosystème Hadoop
ETRE EN MESURE de savoir quand et comment utiliser ces outils

Profil des participants+

Managers des systèmes d’information, ingénieurs recherche et développement, experts en business intelligence, chefs de projet, consultants techniques, dataminers

Corps enseignant+

Matthieu VAUTROT
Consultant en technologie Big Data et Analytique, Quantmetry

Demande d'information+

Traitement distribué pour les Big Data

Informations CNIL

Les données personnelles recueillies dans ce formulaire font l'objet d'un traitement automatisé conforme à la norme simplifiée 48 qui concerne les traitements relatifs à la gestion de clients et de prospects (délibération n°2012-209 du 21 juin 2012 de la CNIL). Les informations collectées sont destinées aux services de la Formation Continue. Vous pouvez exercer votre droit d'accès et de rectification prévus par la loi en vous adressant par courrier électronique à cil@centralesupelec.fr.