Cheat Sheet · 5 juin 2026

Analytique AWS — Cheat Sheet Cloud Practitioner

LeCloudFacile

L’analytique AWS couvre les services permettant d’ingérer, stocker, transformer, analyser et visualiser de grandes quantités de données. Au CLF-C02, l’examen teste principalement la différence entre chaque service et la capacité à identifier le bon outil pour chaque étape du pipeline de données.

Vue d’ensemble — pipeline de données AWS

Les services analytiques AWS couvrent chaque étape d’un pipeline de données, de l’ingestion à la visualisation.

Étape	Service AWS	Rôle	Modèle
Ingestion (streaming)	Amazon Kinesis	Capturer des données en temps réel (logs, IoT, clics)	Managé
Ingestion (batch)	AWS Glue, S3	Charger des fichiers en lot vers un data lake	Managé / Serverless
Stockage	Amazon S3	Data lake — stocker tous types de données brutes	Serverless
Catalogue de données	AWS Glue Data Catalog	Référentiel central des métadonnées du data lake	Managé
Transformation ETL	AWS Glue (jobs Spark)	Extraire, transformer, charger les données	Serverless
Traitement Big Data	Amazon EMR	Clusters Hadoop/Spark pour traitement massif	Managé (EC2)
Requêtes ad hoc sur S3	Amazon Athena	SQL serverless directement sur les fichiers S3	Serverless
Data Warehouse	Amazon Redshift	OLAP — analyses complexes sur pétaoctets	Managé / Serverless
Visualisation BI	Amazon QuickSight	Tableaux de bord et rapports interactifs	Serverless

OLTP vs OLAP — distinction fondamentale :
OLTP (Online Transaction Processing) = transactions courantes en temps réel — INSERT, UPDATE, DELETE fréquents. Ex : RDS, Aurora, DynamoDB. OLAP (Online Analytical Processing) = analyses complexes sur de grands volumes — agrégations, jointures, rapports. Ex : Redshift, Athena. L’examen teste régulièrement cette distinction : si la question parle d’analyse, de rapports, d’entrepôt de données → OLAP → Redshift ou Athena.

1. Amazon Redshift — Data Warehouse OLAP

Redshift est un entrepôt de données cloud conçu pour analyser de très grandes quantités de données avec SQL. Il est basé sur PostgreSQL mais optimisé pour l’analytique, pas pour les transactions.

Propriété	Détail
Type	Data Warehouse OLAP — pas une base transactionnelle (OLTP)
Base	PostgreSQL — compatible SQL, mais architecture différente pour l’analytique
Stockage	Columnar (en colonnes) — optimisé pour les agrégations et requêtes analytiques
Parallélisme	MPP (Massively Parallel Processing) — requêtes distribuées sur plusieurs nœuds
Scalabilité	Pétaoctets de données — de quelques Go à plusieurs Po
Performance	Jusqu’à 10x plus rapide que les entrepôts de données traditionnels
Intégrations	QuickSight, Tableau, S3, RDS, DMS, Glue, Athena
Redshift Serverless	Mode sans serveur — scaling automatique, paiement à la seconde d’exécution

Redshift vs RDS — quand choisir quoi

Critère	Amazon RDS	Amazon Redshift
Type de workload	OLTP — transactions fréquentes (INSERT, UPDATE)	OLAP — analyses complexes, rapports, agrégations
Requêtes	Simples, en temps réel, sur peu de lignes	Complexes, sur des milliards de lignes
Cas d’usage	Application web, e-commerce, ERP	Business Intelligence, data warehouse, analytics
Accès concurrent	Milliers d’utilisateurs simultanés (transactions)	Dizaines à centaines d’analystes
Stockage	Row-based (en lignes) — optimisé OLTP	Columnar (en colonnes) — optimisé OLAP

2. Amazon Athena — SQL serverless sur S3

Athena permet d’interroger directement les fichiers stockés dans S3 avec du SQL standard, sans serveur, sans charger les données ailleurs. Vous payez uniquement pour les données scannées.

Propriété	Détail
Type	Service de requête serverless — SQL interactif
Source de données	Directement sur Amazon S3 — pas de chargement préalable
Moteur	Basé sur Presto — distribué et rapide
Langage	SQL standard (ANSI SQL)
Formats supportés	CSV, JSON, Avro, Parquet, ORC — les formats compressés coûtent moins cher
Facturation	~5 USD par téraoctet de données scannées — pas de frais si pas de requête
Réduire les coûts	Partitionner les données dans S3, utiliser Parquet/ORC (format columnar compressé)
Intégrations	QuickSight (visualisation), AWS Glue Data Catalog (métadonnées), CloudTrail, VPC Flow Logs
Cas d’usage	Analyse de logs, analyses ad hoc, requêtes ponctuelles sans cluster à gérer

Athena vs Redshift — quand choisir quoi :
Athena = analyses ad hoc, ponctuelles, sur des fichiers déjà dans S3, sans infrastructure à gérer, facturation à la requête. Redshift = analyses régulières et complexes sur des données structurées, besoin de performances élevées et prévisibles, entrepôt de données centralisé. Règle simple : données déjà dans S3 + requêtes occasionnelles → Athena. Entrepôt de données permanent avec charges récurrentes → Redshift.

3. Amazon EMR — Big Data avec Hadoop et Spark

EMR (Elastic MapReduce) permet de créer des clusters de machines EC2 pour traiter de très grandes quantités de données avec des frameworks Big Data open-source comme Hadoop, Spark, HBase ou Flink.

Propriété	Détail
Type	Service de clusters Big Data managé — sur des instances EC2
Frameworks	Hadoop, Apache Spark, HBase, Presto, Flink, Hive — choix à la création du cluster
Provisionnement	EMR crée, configure et gère automatiquement les instances EC2 du cluster
Scaling	Automatique — ajoute ou supprime des nœuds selon la charge
Instances Spot	Intégration native avec Spot Instances pour réduire les coûts (jusqu’à 90%)
Stockage	S3 (EMRFS) comme stockage persistant — les instances sont éphémères
Cas d’usage	Machine Learning à grande échelle, traitement de logs, ETL massif, indexation web, génomique
Différence avec Glue	EMR = plus de contrôle et de flexibilité (choix du framework). Glue = ETL serverless plus simple.

Composants d’un cluster EMR

Nœud	Rôle
Master Node (Primary)	Coordonne le cluster — gère les jobs, le monitoring et la distribution des tâches
Core Node	Stocke les données (HDFS) et exécute les tâches — toujours présent
Task Node (optionnel)	Exécute uniquement des tâches (pas de stockage HDFS) — idéal pour les instances Spot

4. AWS Glue — ETL serverless et Data Catalog

AWS Glue est un service ETL (Extract, Transform, Load) entièrement serverless. Il extrait des données depuis diverses sources, les transforme et les charge dans une destination — sans serveur à provisionner.

Composant	Description	Cas d’usage
Glue ETL Jobs	Scripts de transformation basés sur Apache Spark (Python ou Scala) — s’exécutent sur un environnement managé	Transformer des CSV bruts en Parquet optimisé, nettoyer des données, enrichir des datasets
Glue Data Catalog	Catalogue centralisé de métadonnées — référentiel de toutes les tables, schémas et sources de données	Athena et Redshift Spectrum l’utilisent pour connaître la structure des données dans S3
Glue Crawlers	Analysent automatiquement les sources de données et peuplent le Data Catalog	Scanner un bucket S3 pour détecter automatiquement les schémas des fichiers
Glue DataBrew	Outil visuel de préparation de données sans code — nettoyage, normalisation	Analystes data sans compétences Python — transformation de données via interface graphique
Glue Workflows	Orchestration de pipelines ETL complets — enchaîner plusieurs jobs	Automatiser un pipeline : Crawler → ETL Job → Load vers Redshift

Glue vs EMR — quand choisir quoi : AWS Glue = serverless, simple à déployer, idéal pour l’ETL standard sans gestion d’infrastructure. Amazon EMR = plus de contrôle sur l’environnement, choix du framework (Spark, Hadoop, Flink…), adapté aux workloads Big Data complexes nécessitant de la flexibilité. Pour le CLF-C02 : ETL simple et managé → Glue. Traitement Big Data avec framework spécifique ou contrôle fin → EMR.

5. Amazon QuickSight — Business Intelligence serverless

QuickSight est le service de Business Intelligence (BI) d’AWS. Il permet de créer des tableaux de bord interactifs, des visualisations et des rapports à partir de nombreuses sources de données AWS.

Propriété	Détail
Type	Service BI serverless — tableaux de bord et visualisations
Moteur	SPICE (Super-fast Parallel In-memory Calculation Engine) — cache en mémoire pour des requêtes rapides
Sources connectées	RDS, Aurora, Redshift, S3, Athena, OpenSearch, Salesforce, bases on-premises…
Accès	Web et mobile — tableaux de bord accessibles depuis n’importe quel navigateur
ML intégré	Détection d’anomalies, prévisions, insights automatiques via Machine Learning
Collaboration	Partage de tableaux de bord avec des utilisateurs internes ou externes
Facturation	Par session ou par utilisateur — pas de frais si pas d’utilisation
Cas d’usage	Rapports de direction, dashboards opérationnels, analyses commerciales, visualisation de logs

6. Amazon Kinesis — ingestion de données en temps réel

Kinesis permet de collecter, traiter et analyser des flux de données en temps réel (streaming) — logs applicatifs, données IoT, clics web, transactions financières.

Service Kinesis	Rôle	Cas d’usage
Kinesis Data Streams	Capture et stocke les flux de données en temps réel — rétention jusqu’à 365 jours	Traitement custom en temps réel avec Lambda ou applications de traitement
Kinesis Data Firehose	Charge automatiquement les flux de données vers S3, Redshift, OpenSearch, Splunk — near real-time	Ingestion sans code vers une destination — ETL léger intégré (transformation Lambda)
Kinesis Data Analytics	Analyse les flux en temps réel avec SQL ou Apache Flink	Détection de fraude en temps réel, alertes sur métriques, agrégations continues
Kinesis Video Streams	Capture et stocke des flux vidéo depuis des caméras et appareils IoT	Analyse vidéo, surveillance, computer vision

Kinesis vs SQS — différence clé :
SQS = file de messages, chaque message est consommé une fois et supprimé — bon pour le découplage de systèmes. Kinesis = flux de données persistant, plusieurs consommateurs peuvent lire le même flux, rétention configurable — bon pour l’analytique temps réel et le traitement de streams. L’examen teste cette distinction : analytics temps réel → Kinesis. Découplage de microservices → SQS.

7. Autres services analytiques AWS

Service	Type	Cas d’usage	À retenir
AWS Lake Formation	Data Lake management	Créer, sécuriser et gérer un data lake S3 en quelques jours	Simplifie les permissions granulaires sur le data lake — couche de gouvernance au-dessus de S3 + Glue
Amazon OpenSearch Service	Moteur de recherche et d’analytics	Logs, monitoring applicatif, recherche full-text (héritier d’Elasticsearch)	Anciennement Amazon Elasticsearch Service — pour les logs et la recherche
Amazon MSK (Managed Streaming for Apache Kafka)	Streaming de données (Kafka managé)	Alternative à Kinesis quand les équipes utilisent déjà Apache Kafka	Kafka managé sur AWS — pour les architectures event-driven existantes
AWS Data Exchange	Marketplace de données	Acheter et vendre des datasets tiers directement dans AWS	Accès à des données de fournisseurs externes (Bloomberg, Reuters…) directement dans S3

8. Scénarios CLF-C02 — analytique

Scénario examen	Bonne réponse	Pourquoi
Analyser des téraoctets de logs stockés dans S3 avec SQL sans gérer d’infrastructure	Amazon Athena	SQL serverless directement sur S3 — pas de cluster, facturation par données scannées
Entrepôt de données centralisé pour des analyses complexes sur des pétaoctets	Amazon Redshift	Data Warehouse OLAP — conçu pour les analyses massives et récurrentes
Créer des tableaux de bord interactifs pour les équipes business depuis des données RDS	Amazon QuickSight	Service BI serverless — connecté à RDS, Redshift, S3, Athena…
Transformer des données CSV bruts en format Parquet optimisé avant chargement dans Redshift	AWS Glue (ETL Job)	ETL serverless Spark — extraction, transformation, chargement managé
Traitement de données massives avec Apache Spark — besoin de contrôle sur le cluster	Amazon EMR	Clusters Spark/Hadoop managés avec contrôle complet sur la configuration
Capturer des millions de clics par seconde en temps réel pour analyse	Amazon Kinesis Data Streams	Streaming en temps réel — capture, stocke, permet plusieurs consommateurs
Charger automatiquement des logs vers S3 toutes les 60 secondes sans coder	Amazon Kinesis Data Firehose	Near real-time delivery vers S3/Redshift sans infrastructure — Firehose gère tout
Scanner automatiquement un bucket S3 pour détecter les schémas et créer des tables	AWS Glue Crawlers + Data Catalog	Crawlers = découverte automatique. Data Catalog = référentiel des métadonnées
Application e-commerce — données transactionnelles en temps réel + analyse des ventes mensuelles	RDS (OLTP) + Redshift (OLAP)	Deux outils complémentaires — RDS pour les transactions, Redshift pour les analyses
Analyser des flux vidéo provenant de caméras de surveillance en temps réel	Amazon Kinesis Video Streams	Seul service AWS dédié aux flux vidéo en temps réel
Créer un data lake sécurisé avec des permissions granulaires par table et par colonne	AWS Lake Formation	Gouvernance du data lake S3 — contrôle d’accès fin sur Glue Data Catalog
Recherche full-text sur des millions de documents et logs applicatifs	Amazon OpenSearch Service	Moteur de recherche et d’analytics sur logs — successeur d’Elasticsearch

Les 3 règles d’or analytique au CLF-C02 : (1) OLTP (transactions temps réel) → RDS/Aurora/DynamoDB. OLAP (analyses complexes) → Redshift. SQL ad hoc sur S3 → Athena. (2) ETL simple sans infra → Glue. ETL massif avec framework Spark/Hadoop → EMR. Streaming temps réel → Kinesis (Data Streams = custom, Firehose = delivery automatique). (3) Visualisation BI → QuickSight. Catalogue de métadonnées → Glue Data Catalog. Gouvernance data lake → Lake Formation. Logs et recherche → OpenSearch.

Préparez votre certification AWS Cloud PractitionerCours complet CLF-C02 en français · Vidéos · Quiz · Cas pratiques · Accès à vie
Accéder au cours CLF-C02 sur LeCloudFacile.com

Sources et références

AWS — Amazon Redshift Documentation — OLAP, columnar storage, MPP, Serverless

AWS — Amazon Athena Documentation — SQL serverless sur S3, formats supportés, tarification

AWS — Amazon EMR Documentation — clusters Hadoop/Spark, nœuds, Spot Instances

AWS — AWS Glue Documentation — ETL, Crawlers, Data Catalog, DataBrew

AWS — Amazon QuickSight Documentation — BI serverless, SPICE, ML Insights

AWS — Amazon Kinesis Documentation — Data Streams, Firehose, Data Analytics, Video Streams

AWS CLF-C02 Exam Guide (officiel)

Tags :

Parcourir les cours

Cours Cloud

AWS Certified Solutions Architect – Associate

AWS Certified AI Practitioner AIF-C01

AWS Essentials

Cours DevOps

Introduction au DevOps

Introduction à Docker

DevOps en 100 jours

Préparations aux Certifications

AWS Certified AI Practitioner AIF-C01

AWS Certified Solutions Architect – Associate

Examens Pratiques – AWS Cloud Practitioner

Cours IA & Data

AWS Certified AI Practitioner AIF-C01

Introduction à l’Intelligence Artificielle

Introduction au Data Lake

Parcourir par domaine

Parcours Cloud & Infra

Architecte Cloud (AWS)

Administrateur Cloud (AWS)

Parcours DevOps

Ingénieur DevOps

Parcours Certifications

Certif. AWS Cloud Practitioner

Certif. AWS AI Practitioner

Certif. AWS Solutions Architect

FORMATIONS

ENTREPRISES

À PROPOS

Espace personnel

LeCloudFacile.com

Le Cloud Facile

Parcourir les cours

Cours Cloud

AWS Certified Solutions Architect – Associate

AWS Certified AI Practitioner AIF-C01

AWS Essentials

Cours DevOps

Introduction au DevOps

Introduction à Docker

DevOps en 100 jours

Préparations aux Certifications

AWS Certified AI Practitioner AIF-C01

AWS Certified Solutions Architect – Associate

Examens Pratiques – AWS Cloud Practitioner

Cours IA & Data

AWS Certified AI Practitioner AIF-C01

Introduction à l’Intelligence Artificielle

Introduction au Data Lake

Parcourir par domaine

Parcours Cloud & Infra

Architecte Cloud (AWS)

Administrateur Cloud (AWS)

Parcours DevOps

Ingénieur DevOps

Parcours Certifications

Certif. AWS Cloud Practitioner

Certif. AWS AI Practitioner

Certif. AWS Solutions Architect

Analytique AWS — Cheat Sheet Cloud Practitioner

Vue d’ensemble — pipeline de données AWS

1. Amazon Redshift — Data Warehouse OLAP

2. Amazon Athena — SQL serverless sur S3

3. Amazon EMR — Big Data avec Hadoop et Spark

4. AWS Glue — ETL serverless et Data Catalog

5. Amazon QuickSight — Business Intelligence serverless

6. Amazon Kinesis — ingestion de données en temps réel

7. Autres services analytiques AWS

8. Scénarios CLF-C02 — analytique

✉️ Restez informé

FORMATIONS

ENTREPRISES

À PROPOS

Table of Contents

Espace personnel

LeCloudFacile.com

Le Cloud Facile