L'ajout de cookie est désactivé sur votre navigateur, vous devez l'activer pour pouvoir naviguer sur ce site internet.
UpUp, la 1ère plateforme de mutualisation de formations.

Big Data - Mise en oeuvre pratique d'une solution complète d'analyse des données

Formation Big Data, Data, Data Science et IA

Big Data - Mise en oeuvre pratique d'une solution complète d'analyse des données

Informatique > Big Data, Data, Data Science et IA

Objectifs

  • Disposer des compétences techniques nécessaires à la mise en oeuvre d'analyses Big Data.
  • Comprendre le cadre juridique du stockage et de l'analyse de données.
  • Savoir utiliser des outils de collecte Open Source.
  • Être en mesure de choisir la bonne solution de stockage de données au regard des spécificités d'un projet (OLAP, NoSQL, graph).
  • Explorer la boite à outils technologique que constitue Hadoop et son écosystème et savoir comment utiliser chaque brique (MapReduce, HIVE, SPARK...).
  • Apprendre à analyser les résultats et comprendre la signification des données extraites.

Le programme de la formation

Avant la session

 

Un quiz de consolidation des pré-requis

 

Introduction

 

Objectifs
Schématisation du projet
Écosystème et stack technologique
Résultats attendus

 

Ingestion de données massives

 

Description
Caractéristiques clés des outils d'ingestion
Solutions (packagées, cloud computing et Hadoop)
Focus Apache NIFI
Focus Apache KAFKA
Ingestion de données en streaming NIFI on KAFKA
Réalisation d'un workflow NIFI d'ingestion de donnée streaming dans HDFS

 

Traitement de données Big Data en batch

 

Diagramme de fonctionnement
Solutions logicielles associées (MapReduce, Hive, Spark, ...)
Big Data Batch scripting
Data Warehousing Big Data
Création de tables partitionnées, clusterisées et/ou transactionnelles
Écriture des scripts d'updates des différentes tables
Analytics Big Data

 

Traitement avancé Big Data : l'apprentissage machine

 

L'écosystème Spark
Schéma général de création d'un modèle de ML
Création d'un modèle de clusterisation de données
Création d'un modèle d'analyse prédictive supervisé
Enrichissement d'un DWH avec Spark
Sauvegarde d'un modèle d'apprentissage machine
Application d'un modèle ML

 

Stockage de données distribuées

 

Principes des bases de donnes distribuées
Solutions (NoSQL, NewSQL)
Création d'une base de données distribuée
Ingestion de données dans une base de données distribuées
Interrogation d'une base de données distribuées

 

Automatisation de chaîne de traitement Batch

 

L'orchestrateur Oozie
Ordonnancement de scripts HIVE
Combinaison avec des scripts SPARK
Création d'un worklow Oozie complet

 

Traitement de données massives en flux (streaming)

 

Principe de fonctionnement
Solutions logicielles
Le prétraitement de données en streaming
L'inscription de streams à un Hub Streaming
La consommation de streams auprès d'un Hub
Le traitement avancé de données en flux (machine learning)

 

Mise en oeuvre dans une architecture Big Data

 

Les approches standards
Réalisation d'une solution complète de traitement de données type Lamda
Réalisation d'une solution complète de traitement de données type Kappa

 

Après la session

 

Un quiz pédagogique pour évaluer vos acquis et approfondir les sujets de votre choix
Des vidéocasts pour revenir sur les points clés de la formation
Des vidéos-tutos pour vous accompagner dans l'utilisation des outils du Big Data

Public et Pré-requis de la formation

Chefs de projet, Data Scientists, Data Analysts, Développeurs, Analystes et statisticien. Toute personne en charge de la mise en oeuvre opérationnelle d'un projet Big Data en environnement Hadoop.

 

Avoir suivi la formation "Big Data - Les fondamentaux de l'analyse de données".
La connaissance d'un langage de programmation et du langage SQL est un plus pour suivre cette formation.

Méthode pédagogique de la formation

Une formation très opérationnelle durant laquelle s'alternent les phases d'apports théoriques, d'échanges, de partage d'expériences.
Les participants réalisent sur un cas concret une chaîne de traitement Big Data (Batch et Streaming).
Ils travaillent dans un environnement Cloud sur une des distributions Hadoop les plus utilisées.
Les contenus digitaux mis à disposition des stagiaires avant et après la formation renforcent l'efficacité pédagogique du programme et garantissent un bénéfice durable de l'action de formation.

29 Commentaires