Analytique AWS — Cheat Sheet Cloud Practitioner
L’analytique AWS couvre les services permettant d’ingérer, stocker, transformer, analyser et visualiser de grandes quantités de données. Au CLF-C02, l’examen teste principalement la différence entre chaque service et la capacité à identifier le bon outil pour chaque étape du pipeline de données.
Vue d’ensemble — pipeline de données AWS
Les services analytiques AWS couvrent chaque étape d’un pipeline de données, de l’ingestion à la visualisation.
| Étape | Service AWS | Rôle | Modèle |
| Ingestion (streaming) | Amazon Kinesis | Capturer des données en temps réel (logs, IoT, clics) | Managé |
| Ingestion (batch) | AWS Glue, S3 | Charger des fichiers en lot vers un data lake | Managé / Serverless |
| Stockage | Amazon S3 | Data lake — stocker tous types de données brutes | Serverless |
| Catalogue de données | AWS Glue Data Catalog | Référentiel central des métadonnées du data lake | Managé |
| Transformation ETL | AWS Glue (jobs Spark) | Extraire, transformer, charger les données | Serverless |
| Traitement Big Data | Amazon EMR | Clusters Hadoop/Spark pour traitement massif | Managé (EC2) |
| Requêtes ad hoc sur S3 | Amazon Athena | SQL serverless directement sur les fichiers S3 | Serverless |
| Data Warehouse | Amazon Redshift | OLAP — analyses complexes sur pétaoctets | Managé / Serverless |
| Visualisation BI | Amazon QuickSight | Tableaux de bord et rapports interactifs | Serverless |
| OLTP vs OLAP — distinction fondamentale : OLTP (Online Transaction Processing) = transactions courantes en temps réel — INSERT, UPDATE, DELETE fréquents. Ex : RDS, Aurora, DynamoDB. OLAP (Online Analytical Processing) = analyses complexes sur de grands volumes — agrégations, jointures, rapports. Ex : Redshift, Athena. L’examen teste régulièrement cette distinction : si la question parle d’analyse, de rapports, d’entrepôt de données → OLAP → Redshift ou Athena. |
1. Amazon Redshift — Data Warehouse OLAP
Redshift est un entrepôt de données cloud conçu pour analyser de très grandes quantités de données avec SQL. Il est basé sur PostgreSQL mais optimisé pour l’analytique, pas pour les transactions.
| Propriété | Détail |
| Type | Data Warehouse OLAP — pas une base transactionnelle (OLTP) |
| Base | PostgreSQL — compatible SQL, mais architecture différente pour l’analytique |
| Stockage | Columnar (en colonnes) — optimisé pour les agrégations et requêtes analytiques |
| Parallélisme | MPP (Massively Parallel Processing) — requêtes distribuées sur plusieurs nœuds |
| Scalabilité | Pétaoctets de données — de quelques Go à plusieurs Po |
| Performance | Jusqu’à 10x plus rapide que les entrepôts de données traditionnels |
| Intégrations | QuickSight, Tableau, S3, RDS, DMS, Glue, Athena |
| Redshift Serverless | Mode sans serveur — scaling automatique, paiement à la seconde d’exécution |
Redshift vs RDS — quand choisir quoi
| Critère | Amazon RDS | Amazon Redshift |
| Type de workload | OLTP — transactions fréquentes (INSERT, UPDATE) | OLAP — analyses complexes, rapports, agrégations |
| Requêtes | Simples, en temps réel, sur peu de lignes | Complexes, sur des milliards de lignes |
| Cas d’usage | Application web, e-commerce, ERP | Business Intelligence, data warehouse, analytics |
| Accès concurrent | Milliers d’utilisateurs simultanés (transactions) | Dizaines à centaines d’analystes |
| Stockage | Row-based (en lignes) — optimisé OLTP | Columnar (en colonnes) — optimisé OLAP |
2. Amazon Athena — SQL serverless sur S3
Athena permet d’interroger directement les fichiers stockés dans S3 avec du SQL standard, sans serveur, sans charger les données ailleurs. Vous payez uniquement pour les données scannées.
| Propriété | Détail |
| Type | Service de requête serverless — SQL interactif |
| Source de données | Directement sur Amazon S3 — pas de chargement préalable |
| Moteur | Basé sur Presto — distribué et rapide |
| Langage | SQL standard (ANSI SQL) |
| Formats supportés | CSV, JSON, Avro, Parquet, ORC — les formats compressés coûtent moins cher |
| Facturation | ~5 USD par téraoctet de données scannées — pas de frais si pas de requête |
| Réduire les coûts | Partitionner les données dans S3, utiliser Parquet/ORC (format columnar compressé) |
| Intégrations | QuickSight (visualisation), AWS Glue Data Catalog (métadonnées), CloudTrail, VPC Flow Logs |
| Cas d’usage | Analyse de logs, analyses ad hoc, requêtes ponctuelles sans cluster à gérer |
| Athena vs Redshift — quand choisir quoi : Athena = analyses ad hoc, ponctuelles, sur des fichiers déjà dans S3, sans infrastructure à gérer, facturation à la requête. Redshift = analyses régulières et complexes sur des données structurées, besoin de performances élevées et prévisibles, entrepôt de données centralisé. Règle simple : données déjà dans S3 + requêtes occasionnelles → Athena. Entrepôt de données permanent avec charges récurrentes → Redshift. |
3. Amazon EMR — Big Data avec Hadoop et Spark
EMR (Elastic MapReduce) permet de créer des clusters de machines EC2 pour traiter de très grandes quantités de données avec des frameworks Big Data open-source comme Hadoop, Spark, HBase ou Flink.
| Propriété | Détail |
| Type | Service de clusters Big Data managé — sur des instances EC2 |
| Frameworks | Hadoop, Apache Spark, HBase, Presto, Flink, Hive — choix à la création du cluster |
| Provisionnement | EMR crée, configure et gère automatiquement les instances EC2 du cluster |
| Scaling | Automatique — ajoute ou supprime des nœuds selon la charge |
| Instances Spot | Intégration native avec Spot Instances pour réduire les coûts (jusqu’à 90%) |
| Stockage | S3 (EMRFS) comme stockage persistant — les instances sont éphémères |
| Cas d’usage | Machine Learning à grande échelle, traitement de logs, ETL massif, indexation web, génomique |
| Différence avec Glue | EMR = plus de contrôle et de flexibilité (choix du framework). Glue = ETL serverless plus simple. |
Composants d’un cluster EMR
| Nœud | Rôle |
| Master Node (Primary) | Coordonne le cluster — gère les jobs, le monitoring et la distribution des tâches |
| Core Node | Stocke les données (HDFS) et exécute les tâches — toujours présent |
| Task Node (optionnel) | Exécute uniquement des tâches (pas de stockage HDFS) — idéal pour les instances Spot |
4. AWS Glue — ETL serverless et Data Catalog
AWS Glue est un service ETL (Extract, Transform, Load) entièrement serverless. Il extrait des données depuis diverses sources, les transforme et les charge dans une destination — sans serveur à provisionner.
| Composant | Description | Cas d’usage |
| Glue ETL Jobs | Scripts de transformation basés sur Apache Spark (Python ou Scala) — s’exécutent sur un environnement managé | Transformer des CSV bruts en Parquet optimisé, nettoyer des données, enrichir des datasets |
| Glue Data Catalog | Catalogue centralisé de métadonnées — référentiel de toutes les tables, schémas et sources de données | Athena et Redshift Spectrum l’utilisent pour connaître la structure des données dans S3 |
| Glue Crawlers | Analysent automatiquement les sources de données et peuplent le Data Catalog | Scanner un bucket S3 pour détecter automatiquement les schémas des fichiers |
| Glue DataBrew | Outil visuel de préparation de données sans code — nettoyage, normalisation | Analystes data sans compétences Python — transformation de données via interface graphique |
| Glue Workflows | Orchestration de pipelines ETL complets — enchaîner plusieurs jobs | Automatiser un pipeline : Crawler → ETL Job → Load vers Redshift |
| Glue vs EMR — quand choisir quoi : AWS Glue = serverless, simple à déployer, idéal pour l’ETL standard sans gestion d’infrastructure. Amazon EMR = plus de contrôle sur l’environnement, choix du framework (Spark, Hadoop, Flink…), adapté aux workloads Big Data complexes nécessitant de la flexibilité. Pour le CLF-C02 : ETL simple et managé → Glue. Traitement Big Data avec framework spécifique ou contrôle fin → EMR. |
5. Amazon QuickSight — Business Intelligence serverless
QuickSight est le service de Business Intelligence (BI) d’AWS. Il permet de créer des tableaux de bord interactifs, des visualisations et des rapports à partir de nombreuses sources de données AWS.
| Propriété | Détail |
| Type | Service BI serverless — tableaux de bord et visualisations |
| Moteur | SPICE (Super-fast Parallel In-memory Calculation Engine) — cache en mémoire pour des requêtes rapides |
| Sources connectées | RDS, Aurora, Redshift, S3, Athena, OpenSearch, Salesforce, bases on-premises… |
| Accès | Web et mobile — tableaux de bord accessibles depuis n’importe quel navigateur |
| ML intégré | Détection d’anomalies, prévisions, insights automatiques via Machine Learning |
| Collaboration | Partage de tableaux de bord avec des utilisateurs internes ou externes |
| Facturation | Par session ou par utilisateur — pas de frais si pas d’utilisation |
| Cas d’usage | Rapports de direction, dashboards opérationnels, analyses commerciales, visualisation de logs |
6. Amazon Kinesis — ingestion de données en temps réel
Kinesis permet de collecter, traiter et analyser des flux de données en temps réel (streaming) — logs applicatifs, données IoT, clics web, transactions financières.
| Service Kinesis | Rôle | Cas d’usage |
| Kinesis Data Streams | Capture et stocke les flux de données en temps réel — rétention jusqu’à 365 jours | Traitement custom en temps réel avec Lambda ou applications de traitement |
| Kinesis Data Firehose | Charge automatiquement les flux de données vers S3, Redshift, OpenSearch, Splunk — near real-time | Ingestion sans code vers une destination — ETL léger intégré (transformation Lambda) |
| Kinesis Data Analytics | Analyse les flux en temps réel avec SQL ou Apache Flink | Détection de fraude en temps réel, alertes sur métriques, agrégations continues |
| Kinesis Video Streams | Capture et stocke des flux vidéo depuis des caméras et appareils IoT | Analyse vidéo, surveillance, computer vision |
| Kinesis vs SQS — différence clé : SQS = file de messages, chaque message est consommé une fois et supprimé — bon pour le découplage de systèmes. Kinesis = flux de données persistant, plusieurs consommateurs peuvent lire le même flux, rétention configurable — bon pour l’analytique temps réel et le traitement de streams. L’examen teste cette distinction : analytics temps réel → Kinesis. Découplage de microservices → SQS. |
7. Autres services analytiques AWS
| Service | Type | Cas d’usage | À retenir |
| AWS Lake Formation | Data Lake management | Créer, sécuriser et gérer un data lake S3 en quelques jours | Simplifie les permissions granulaires sur le data lake — couche de gouvernance au-dessus de S3 + Glue |
| Amazon OpenSearch Service | Moteur de recherche et d’analytics | Logs, monitoring applicatif, recherche full-text (héritier d’Elasticsearch) | Anciennement Amazon Elasticsearch Service — pour les logs et la recherche |
| Amazon MSK (Managed Streaming for Apache Kafka) | Streaming de données (Kafka managé) | Alternative à Kinesis quand les équipes utilisent déjà Apache Kafka | Kafka managé sur AWS — pour les architectures event-driven existantes |
| AWS Data Exchange | Marketplace de données | Acheter et vendre des datasets tiers directement dans AWS | Accès à des données de fournisseurs externes (Bloomberg, Reuters…) directement dans S3 |
8. Scénarios CLF-C02 — analytique
| Scénario examen | Bonne réponse | Pourquoi |
| Analyser des téraoctets de logs stockés dans S3 avec SQL sans gérer d’infrastructure | Amazon Athena | SQL serverless directement sur S3 — pas de cluster, facturation par données scannées |
| Entrepôt de données centralisé pour des analyses complexes sur des pétaoctets | Amazon Redshift | Data Warehouse OLAP — conçu pour les analyses massives et récurrentes |
| Créer des tableaux de bord interactifs pour les équipes business depuis des données RDS | Amazon QuickSight | Service BI serverless — connecté à RDS, Redshift, S3, Athena… |
| Transformer des données CSV bruts en format Parquet optimisé avant chargement dans Redshift | AWS Glue (ETL Job) | ETL serverless Spark — extraction, transformation, chargement managé |
| Traitement de données massives avec Apache Spark — besoin de contrôle sur le cluster | Amazon EMR | Clusters Spark/Hadoop managés avec contrôle complet sur la configuration |
| Capturer des millions de clics par seconde en temps réel pour analyse | Amazon Kinesis Data Streams | Streaming en temps réel — capture, stocke, permet plusieurs consommateurs |
| Charger automatiquement des logs vers S3 toutes les 60 secondes sans coder | Amazon Kinesis Data Firehose | Near real-time delivery vers S3/Redshift sans infrastructure — Firehose gère tout |
| Scanner automatiquement un bucket S3 pour détecter les schémas et créer des tables | AWS Glue Crawlers + Data Catalog | Crawlers = découverte automatique. Data Catalog = référentiel des métadonnées |
| Application e-commerce — données transactionnelles en temps réel + analyse des ventes mensuelles | RDS (OLTP) + Redshift (OLAP) | Deux outils complémentaires — RDS pour les transactions, Redshift pour les analyses |
| Analyser des flux vidéo provenant de caméras de surveillance en temps réel | Amazon Kinesis Video Streams | Seul service AWS dédié aux flux vidéo en temps réel |
| Créer un data lake sécurisé avec des permissions granulaires par table et par colonne | AWS Lake Formation | Gouvernance du data lake S3 — contrôle d’accès fin sur Glue Data Catalog |
| Recherche full-text sur des millions de documents et logs applicatifs | Amazon OpenSearch Service | Moteur de recherche et d’analytics sur logs — successeur d’Elasticsearch |
| Les 3 règles d’or analytique au CLF-C02 : (1) OLTP (transactions temps réel) → RDS/Aurora/DynamoDB. OLAP (analyses complexes) → Redshift. SQL ad hoc sur S3 → Athena. (2) ETL simple sans infra → Glue. ETL massif avec framework Spark/Hadoop → EMR. Streaming temps réel → Kinesis (Data Streams = custom, Firehose = delivery automatique). (3) Visualisation BI → QuickSight. Catalogue de métadonnées → Glue Data Catalog. Gouvernance data lake → Lake Formation. Logs et recherche → OpenSearch. |
| Préparez votre certification AWS Cloud PractitionerCours complet CLF-C02 en français · Vidéos · Quiz · Cas pratiques · Accès à vie Accéder au cours CLF-C02 sur LeCloudFacile.com |
Sources et références
AWS — Amazon Redshift Documentation — OLAP, columnar storage, MPP, Serverless
AWS — Amazon Athena Documentation — SQL serverless sur S3, formats supportés, tarification
AWS — Amazon EMR Documentation — clusters Hadoop/Spark, nœuds, Spot Instances
AWS — AWS Glue Documentation — ETL, Crawlers, Data Catalog, DataBrew
AWS — Amazon QuickSight Documentation — BI serverless, SPICE, ML Insights
AWS — Amazon Kinesis Documentation — Data Streams, Firehose, Data Analytics, Video Streams