
Big Data - Exploitation des données, enjeux et défis
Formation créée le 17/04/2025. Dernière mise à jour le 23/05/2025.
Version du programme : 2
Programme de la formation
Cette formation vise à fournir aux décideurs et ingénieurs un aperçu complet des enjeux associés au Big Data, en mettant l'accent sur la valorisation des données, le potentiel économique et les architectures technologiques sous-jacentes. Les participants auront également l'occasion de se familiariser avec des exemples concrets d'analyses et de visualisations de données.
Objectifs de la formation
- Comprendre les enjeux majeurs liés au Big Data.
- Apprécier la valeur économique des données dans un contexte professionnel.
- Identifier les architectures et technologies du Big Data.
- Explorer des exemples concrets d'analyses et de visualisations de données.
- Appliquer les concepts pratiques lors des travaux pratiques.
Profil des bénéficiaires
- Cette formation s'adresse aux décideurs, responsables stratégiques et ingénieurs impliqués dans la gestion et l'exploitation des données au sein de leur organisation.
- Les participants doivent avoir des connaissances de base en systèmes de gestion de bases de données et des notions de méthodes d'apprentissage automatique.
Contenu de la formation
-
Introduction au Big Data et ses enjeux (1h)
- Définition du Big Data : les 5 V
- Panorama des données dans les environnements publics et militaires
- Données structurées vs non structurées
- Travaux pratiques : Cartographie des sources de données disponibles dans son organisation
-
Valorisation de la donnée et potentiel économique (2h)
- Cycle de vie de la donnée : collecte, traitement, valorisation
- Exemples d’usages à forte valeur ajoutée (maintenance prédictive, renseignement, pilotage)
- Enjeux éthiques, juridiques et sécuritaires
- Travaux pratiques : Identification de cas d’usage internes et analyse de leur ROI potentiel
-
Architectures et technologies du Big Data (2h)
- Architecture distribuée : HDFS, Spark, Hadoop
- Environnements de traitement en flux vs batch
- Stockage, orchestration, gestion des métadonnées
- Travaux pratiques : Schématisation d’une architecture Big Data adaptée à un cas concret (ex : supervision opérationnelle)
-
Exemples d’analyses et de visualisations de données (2h)
- Principes d’analyse exploratoire (EDA)
- Visualisation de données : bonnes pratiques
- Outils : Power BI, matplotlib, seaborn
- Travaux pratiques : Représentation graphique de données opérationnelles simulées (Python ou Excel)
-
Exploration de données avec Python et Pandas (3h30)
- Manipulation de jeux de données avec Pandas
- Nettoyage et transformation des données
- Détection de valeurs aberrantes, corrélations simples
- Travaux pratiques (2h30) : Analyse complète d’un jeu de données simulé (fichier CSV)
-
Utilisation de technologies Big Data (3h30)
- Introduction à Apache Spark : principes, DataFrame API
- Démonstration ou manipulation sur notebooks Spark
- Scénarios d’intégration avec des bases de données externes (NoSQL, SQL)
- Travaux pratiques : Traitement distribué d’un jeu de données volumineux avec PySpark ou équivalent. Mise en situation : analyse comparative de performances (traitement local vs distribué)
Professionnel expert technique et pédagogique.
- Feuilles de présence.
- Mises en situation.
- Formulaires d'évaluation de la formation.
- Certificat de réalisation de l’action de formation.
- Émargement numérique.
- Documents supports de formation projetés.
- Exposés théoriques.
- Etude de cas concrets.
- Mise à disposition en ligne de documents supports à la suite de la formation.
- Espace intranet de formation.