Cheat Sheet · 5 juin 2026

Analytique AWS — Cheat Sheet Cloud Practitioner

LeCloudFacile

L’analytique AWS couvre les services permettant d’ingérer, stocker, transformer, analyser et visualiser de grandes quantités de données. Au CLF-C02, l’examen teste principalement la différence entre chaque service et la capacité à identifier le bon outil pour chaque étape du pipeline de données.

Vue d’ensemble — pipeline de données AWS

Les services analytiques AWS couvrent chaque étape d’un pipeline de données, de l’ingestion à la visualisation.

ÉtapeService AWSRôleModèle
Ingestion (streaming)Amazon KinesisCapturer des données en temps réel (logs, IoT, clics)Managé
Ingestion (batch)AWS Glue, S3Charger des fichiers en lot vers un data lakeManagé / Serverless
StockageAmazon S3Data lake — stocker tous types de données brutesServerless
Catalogue de donnéesAWS Glue Data CatalogRéférentiel central des métadonnées du data lakeManagé
Transformation ETLAWS Glue (jobs Spark)Extraire, transformer, charger les donnéesServerless
Traitement Big DataAmazon EMRClusters Hadoop/Spark pour traitement massifManagé (EC2)
Requêtes ad hoc sur S3Amazon AthenaSQL serverless directement sur les fichiers S3Serverless
Data WarehouseAmazon RedshiftOLAP — analyses complexes sur pétaoctetsManagé / Serverless
Visualisation BIAmazon QuickSightTableaux de bord et rapports interactifsServerless
OLTP vs OLAP — distinction fondamentale :
OLTP (Online Transaction Processing) = transactions courantes en temps réel — INSERT, UPDATE, DELETE fréquents. Ex : RDS, Aurora, DynamoDB. OLAP (Online Analytical Processing) = analyses complexes sur de grands volumes — agrégations, jointures, rapports. Ex : Redshift, Athena. L’examen teste régulièrement cette distinction : si la question parle d’analyse, de rapports, d’entrepôt de données → OLAP → Redshift ou Athena.

1. Amazon Redshift — Data Warehouse OLAP

Redshift est un entrepôt de données cloud conçu pour analyser de très grandes quantités de données avec SQL. Il est basé sur PostgreSQL mais optimisé pour l’analytique, pas pour les transactions.

PropriétéDétail
TypeData Warehouse OLAP — pas une base transactionnelle (OLTP)
BasePostgreSQL — compatible SQL, mais architecture différente pour l’analytique
StockageColumnar (en colonnes) — optimisé pour les agrégations et requêtes analytiques
ParallélismeMPP (Massively Parallel Processing) — requêtes distribuées sur plusieurs nœuds
ScalabilitéPétaoctets de données — de quelques Go à plusieurs Po
PerformanceJusqu’à 10x plus rapide que les entrepôts de données traditionnels
IntégrationsQuickSight, Tableau, S3, RDS, DMS, Glue, Athena
Redshift ServerlessMode sans serveur — scaling automatique, paiement à la seconde d’exécution

Redshift vs RDS — quand choisir quoi

CritèreAmazon RDSAmazon Redshift
Type de workloadOLTP — transactions fréquentes (INSERT, UPDATE)OLAP — analyses complexes, rapports, agrégations
RequêtesSimples, en temps réel, sur peu de lignesComplexes, sur des milliards de lignes
Cas d’usageApplication web, e-commerce, ERPBusiness Intelligence, data warehouse, analytics
Accès concurrentMilliers d’utilisateurs simultanés (transactions)Dizaines à centaines d’analystes
StockageRow-based (en lignes) — optimisé OLTPColumnar (en colonnes) — optimisé OLAP

2. Amazon Athena — SQL serverless sur S3

Athena permet d’interroger directement les fichiers stockés dans S3 avec du SQL standard, sans serveur, sans charger les données ailleurs. Vous payez uniquement pour les données scannées.

PropriétéDétail
TypeService de requête serverless — SQL interactif
Source de donnéesDirectement sur Amazon S3 — pas de chargement préalable
MoteurBasé sur Presto — distribué et rapide
LangageSQL standard (ANSI SQL)
Formats supportésCSV, JSON, Avro, Parquet, ORC — les formats compressés coûtent moins cher
Facturation~5 USD par téraoctet de données scannées — pas de frais si pas de requête
Réduire les coûtsPartitionner les données dans S3, utiliser Parquet/ORC (format columnar compressé)
IntégrationsQuickSight (visualisation), AWS Glue Data Catalog (métadonnées), CloudTrail, VPC Flow Logs
Cas d’usageAnalyse de logs, analyses ad hoc, requêtes ponctuelles sans cluster à gérer
Athena vs Redshift — quand choisir quoi :
Athena = analyses ad hoc, ponctuelles, sur des fichiers déjà dans S3, sans infrastructure à gérer, facturation à la requête. Redshift = analyses régulières et complexes sur des données structurées, besoin de performances élevées et prévisibles, entrepôt de données centralisé. Règle simple : données déjà dans S3 + requêtes occasionnelles → Athena. Entrepôt de données permanent avec charges récurrentes → Redshift.

3. Amazon EMR — Big Data avec Hadoop et Spark

EMR (Elastic MapReduce) permet de créer des clusters de machines EC2 pour traiter de très grandes quantités de données avec des frameworks Big Data open-source comme Hadoop, Spark, HBase ou Flink.

PropriétéDétail
TypeService de clusters Big Data managé — sur des instances EC2
FrameworksHadoop, Apache Spark, HBase, Presto, Flink, Hive — choix à la création du cluster
ProvisionnementEMR crée, configure et gère automatiquement les instances EC2 du cluster
ScalingAutomatique — ajoute ou supprime des nœuds selon la charge
Instances SpotIntégration native avec Spot Instances pour réduire les coûts (jusqu’à 90%)
StockageS3 (EMRFS) comme stockage persistant — les instances sont éphémères
Cas d’usageMachine Learning à grande échelle, traitement de logs, ETL massif, indexation web, génomique
Différence avec GlueEMR = plus de contrôle et de flexibilité (choix du framework). Glue = ETL serverless plus simple.

Composants d’un cluster EMR

NœudRôle
Master Node (Primary)Coordonne le cluster — gère les jobs, le monitoring et la distribution des tâches
Core NodeStocke les données (HDFS) et exécute les tâches — toujours présent
Task Node (optionnel)Exécute uniquement des tâches (pas de stockage HDFS) — idéal pour les instances Spot

4. AWS Glue — ETL serverless et Data Catalog

AWS Glue est un service ETL (Extract, Transform, Load) entièrement serverless. Il extrait des données depuis diverses sources, les transforme et les charge dans une destination — sans serveur à provisionner.

ComposantDescriptionCas d’usage
Glue ETL JobsScripts de transformation basés sur Apache Spark (Python ou Scala) — s’exécutent sur un environnement managéTransformer des CSV bruts en Parquet optimisé, nettoyer des données, enrichir des datasets
Glue Data CatalogCatalogue centralisé de métadonnées — référentiel de toutes les tables, schémas et sources de donnéesAthena et Redshift Spectrum l’utilisent pour connaître la structure des données dans S3
Glue CrawlersAnalysent automatiquement les sources de données et peuplent le Data CatalogScanner un bucket S3 pour détecter automatiquement les schémas des fichiers
Glue DataBrewOutil visuel de préparation de données sans code — nettoyage, normalisationAnalystes data sans compétences Python — transformation de données via interface graphique
Glue WorkflowsOrchestration de pipelines ETL complets — enchaîner plusieurs jobsAutomatiser un pipeline : Crawler → ETL Job → Load vers Redshift
Glue vs EMR — quand choisir quoi : AWS Glue = serverless, simple à déployer, idéal pour l’ETL standard sans gestion d’infrastructure. Amazon EMR = plus de contrôle sur l’environnement, choix du framework (Spark, Hadoop, Flink…), adapté aux workloads Big Data complexes nécessitant de la flexibilité. Pour le CLF-C02 : ETL simple et managé → Glue. Traitement Big Data avec framework spécifique ou contrôle fin → EMR.

5. Amazon QuickSight — Business Intelligence serverless

QuickSight est le service de Business Intelligence (BI) d’AWS. Il permet de créer des tableaux de bord interactifs, des visualisations et des rapports à partir de nombreuses sources de données AWS.

PropriétéDétail
TypeService BI serverless — tableaux de bord et visualisations
MoteurSPICE (Super-fast Parallel In-memory Calculation Engine) — cache en mémoire pour des requêtes rapides
Sources connectéesRDS, Aurora, Redshift, S3, Athena, OpenSearch, Salesforce, bases on-premises…
AccèsWeb et mobile — tableaux de bord accessibles depuis n’importe quel navigateur
ML intégréDétection d’anomalies, prévisions, insights automatiques via Machine Learning
CollaborationPartage de tableaux de bord avec des utilisateurs internes ou externes
FacturationPar session ou par utilisateur — pas de frais si pas d’utilisation
Cas d’usageRapports de direction, dashboards opérationnels, analyses commerciales, visualisation de logs

6. Amazon Kinesis — ingestion de données en temps réel

Kinesis permet de collecter, traiter et analyser des flux de données en temps réel (streaming) — logs applicatifs, données IoT, clics web, transactions financières.

Service KinesisRôleCas d’usage
Kinesis Data StreamsCapture et stocke les flux de données en temps réel — rétention jusqu’à 365 joursTraitement custom en temps réel avec Lambda ou applications de traitement
Kinesis Data FirehoseCharge automatiquement les flux de données vers S3, Redshift, OpenSearch, Splunk — near real-timeIngestion sans code vers une destination — ETL léger intégré (transformation Lambda)
Kinesis Data AnalyticsAnalyse les flux en temps réel avec SQL ou Apache FlinkDétection de fraude en temps réel, alertes sur métriques, agrégations continues
Kinesis Video StreamsCapture et stocke des flux vidéo depuis des caméras et appareils IoTAnalyse vidéo, surveillance, computer vision
Kinesis vs SQS — différence clé :
SQS = file de messages, chaque message est consommé une fois et supprimé — bon pour le découplage de systèmes. Kinesis = flux de données persistant, plusieurs consommateurs peuvent lire le même flux, rétention configurable — bon pour l’analytique temps réel et le traitement de streams. L’examen teste cette distinction : analytics temps réel → Kinesis. Découplage de microservices → SQS.

7. Autres services analytiques AWS

ServiceTypeCas d’usageÀ retenir
AWS Lake FormationData Lake managementCréer, sécuriser et gérer un data lake S3 en quelques joursSimplifie les permissions granulaires sur le data lake — couche de gouvernance au-dessus de S3 + Glue
Amazon OpenSearch ServiceMoteur de recherche et d’analyticsLogs, monitoring applicatif, recherche full-text (héritier d’Elasticsearch)Anciennement Amazon Elasticsearch Service — pour les logs et la recherche
Amazon MSK (Managed Streaming for Apache Kafka)Streaming de données (Kafka managé)Alternative à Kinesis quand les équipes utilisent déjà Apache KafkaKafka managé sur AWS — pour les architectures event-driven existantes
AWS Data ExchangeMarketplace de donnéesAcheter et vendre des datasets tiers directement dans AWSAccès à des données de fournisseurs externes (Bloomberg, Reuters…) directement dans S3

8. Scénarios CLF-C02 — analytique

Scénario examenBonne réponsePourquoi
Analyser des téraoctets de logs stockés dans S3 avec SQL sans gérer d’infrastructureAmazon AthenaSQL serverless directement sur S3 — pas de cluster, facturation par données scannées
Entrepôt de données centralisé pour des analyses complexes sur des pétaoctetsAmazon RedshiftData Warehouse OLAP — conçu pour les analyses massives et récurrentes
Créer des tableaux de bord interactifs pour les équipes business depuis des données RDSAmazon QuickSightService BI serverless — connecté à RDS, Redshift, S3, Athena…
Transformer des données CSV bruts en format Parquet optimisé avant chargement dans RedshiftAWS Glue (ETL Job)ETL serverless Spark — extraction, transformation, chargement managé
Traitement de données massives avec Apache Spark — besoin de contrôle sur le clusterAmazon EMRClusters Spark/Hadoop managés avec contrôle complet sur la configuration
Capturer des millions de clics par seconde en temps réel pour analyseAmazon Kinesis Data StreamsStreaming en temps réel — capture, stocke, permet plusieurs consommateurs
Charger automatiquement des logs vers S3 toutes les 60 secondes sans coderAmazon Kinesis Data FirehoseNear real-time delivery vers S3/Redshift sans infrastructure — Firehose gère tout
Scanner automatiquement un bucket S3 pour détecter les schémas et créer des tablesAWS Glue Crawlers + Data CatalogCrawlers = découverte automatique. Data Catalog = référentiel des métadonnées
Application e-commerce — données transactionnelles en temps réel + analyse des ventes mensuellesRDS (OLTP) + Redshift (OLAP)Deux outils complémentaires — RDS pour les transactions, Redshift pour les analyses
Analyser des flux vidéo provenant de caméras de surveillance en temps réelAmazon Kinesis Video StreamsSeul service AWS dédié aux flux vidéo en temps réel
Créer un data lake sécurisé avec des permissions granulaires par table et par colonneAWS Lake FormationGouvernance du data lake S3 — contrôle d’accès fin sur Glue Data Catalog
Recherche full-text sur des millions de documents et logs applicatifsAmazon OpenSearch ServiceMoteur de recherche et d’analytics sur logs — successeur d’Elasticsearch
Les 3 règles d’or analytique au CLF-C02 : (1) OLTP (transactions temps réel) → RDS/Aurora/DynamoDB. OLAP (analyses complexes) → Redshift. SQL ad hoc sur S3 → Athena. (2) ETL simple sans infra → Glue. ETL massif avec framework Spark/Hadoop → EMR. Streaming temps réel → Kinesis (Data Streams = custom, Firehose = delivery automatique). (3) Visualisation BI → QuickSight. Catalogue de métadonnées → Glue Data Catalog. Gouvernance data lake → Lake Formation. Logs et recherche → OpenSearch.
Préparez votre certification AWS Cloud PractitionerCours complet CLF-C02 en français · Vidéos · Quiz · Cas pratiques · Accès à vie
Accéder au cours CLF-C02 sur LeCloudFacile.com

Sources et références

AWS — Amazon Redshift Documentation — OLAP, columnar storage, MPP, Serverless

AWS — Amazon Athena Documentation — SQL serverless sur S3, formats supportés, tarification

AWS — Amazon EMR Documentation — clusters Hadoop/Spark, nœuds, Spot Instances

AWS — AWS Glue Documentation — ETL, Crawlers, Data Catalog, DataBrew

AWS — Amazon QuickSight Documentation — BI serverless, SPICE, ML Insights

AWS — Amazon Kinesis Documentation — Data Streams, Firehose, Data Analytics, Video Streams

AWS CLF-C02 Exam Guide (officiel)

Tags :