ETL / ELT vs CDC

Extract - Load (ETL/ELT)
vs Change Data Capture (CDC)

Le CDC est une méthode qui permet d'augmenter l'efficacité des mouvements de données en capturant les changements point par point au lieu de prendre des images périodiques. Les avantages : plus rapide, moins de traitement et de ressources consomées.

Capturer les données en temps réel.
ETL / ELT

Extract - Load

L' Extract - Load est un modèle d'intégration de données visant à transférer des données brutes depuis des systèmes sources vers un système de stockage de données cible, généralement une data warehouse ou un data lake. Le processus consiste à venir scanner et extraire un lot de données de sa source, puis à le copier dans un système de stockage cible, et enfin à transformer les données à des fins analytiques.

Comment ça marche ?

Les processus ELT lisent périodiquement un système source (base de données, CRM, ERP...) et copient des datasets ou des parties de datasets - c'est ce qu'on appelle un Extract. Ils écrivent ensuite ces datasets dans une destination (généralement un data warehouse ou un data lake) sous forme de données brutes - c'est la partie Load. Les données étant chargées à l'état brut, elles nécessitent souvent un traitement supplémentaire, par exemple pour identifier les objets au sein d'un dataset qui sont en fait des mises à jour de lignes existantes, ou pour appliquer des logiques afin d'identifier les lignes qui pourraient avoir été supprimés. C'est la partie Transform.

Avantages

  • Échelle : le passage à échelle pour l'ETL consiste à gérer de très larges charges par intermittence: en attendant le bon moment et en allouant des larges ressources au traitement de grandes quantités de données en une seule fois. Cette méthode permet de tirer parti des périodes de disponibilité des ressources pour effectuer de lourds transferts et traitements de données. 
  • Familiarité : le modèle ETL existe depuis les années 1970, ce qui en fait une pratique bien établie dans le domaine de la gestion des données. Sa longévité implique que chaque professionnel de la donnée a pu acquérir une connaissance de ses mécanismes et de ses pratiques, offrant ainsi une large base de connaissance et d'expertise sur laquelle s'appuyer.
  • Capacités d'intégration : L'ETL excelle dans l'intégration de sources de données disparates, permettant la consolidation de divers types et formats de données dans un format unifié dans le système cible. C'est pourquoi les fournisseurs d'ELT/ETL se targuent souvent de plusieurs centaines de connecteurs.

Limites

  • Coût: la mise en œuvre et la maintenance des processus ETL peuvent être coûteuses, en particulier lorsque le volume et la complexité des données augmentent. La nécessité de disposer de ressources informatiques importantes pour transformer les données avant de les charger dans le système cible peut entraîner une augmentation des coûts opérationnels.
  • Orchestration: Les processus ETL dépendent de taches, et la consistence entre les systèmes ne peut être obtenue qu'à intervals périodiques. Cette dépendance entraîne une complexite dans le maintien de l'intégrité des données et peut nécessiter une orchestration complexe pour garantir la synchronisation efficace des données entre plusieurs systèmes.
  • Impact Système: Les processus ETL peuvent générer une charge substantielle sur les systèmes sources, en particulier pendant la phase d'extraction. Cette charge peut affecter les performances des systèmes sources et perturber les activités opérationnelles en affectant la disponibilité des systèmes. C'est pour cette raison que l'ETL est souvent déclenché la nuit.
Traitez la donnée en temps réel.
CDC

Capture De Changements

Le CDC est un modèle utilisé pour reproduire les modifications apportées aux données d'un système plutôt que les données elles-mêmes. Le CDC identifie les changements tels que les nouveaux enregistrements, les mises à jour ou les suppressions. Ces modifications sont automatiquement appliquées à un système cible (qu'il s'agisse de datawarehouses ou d'outils) garantissant la cohérence des deux - ou plus - systèmes à tout moment.

Comment ça marche ?

Le CDC s'appuie sur les éléments internes des systèmes sources pour capturer les changements au fur et à mesure qu'ils se produisent. Il peut s'agir de journaux de base de données, d'évènements de service ou de webhooks. Les changements capturés sont ensuite transférés vers le système cible pour y être appliqués. En ne transportant que les changements et en les appliquant directement au système cible, le CDC permet d'assurer la cohérence des données entre plusieurs systèmes tout en déplaçant moins de données, et ce, avec une très faible lattence.

Avantages

  • Consistence des données : Le CDC assure un niveau élevé de cohérence des données entre les systèmes en capturant et en répliquant les changements de données en temps quasi réel. Cette synchronisation continue permet d'obtenir des données précises et à jour, améliorer la prise de décision, et les processus opérationnels.
  • Échelle: L'approche du CDC en matière de passage à l'échelle repose sur le transfert continu et incrémentale des données au fur et à mesure des changements. Cela permet de réagir efficacement aux volumes de données, aussi larges ou minimes soient ils. En réagissant instantanément, le CDC étale les volumes transférés dans le temps.
  • Efficacité: en ne transférant que les modifications apportées aux données, le CDC minimise les volumes à déplacer. Cette efficacité réduit les besoins de traitement et de stockage, et permet ainsi de réduire les coûts et d'améliorer la disponibilité de la données. Elle permet également de réduire considérablement la charge sur les systèmes sources par rapport aux extractions ETL / ELT.
  • Réplication de Données en Temps Réel: le CDC facilite la réplication des données en temps réel, permettant ainsi une disponibilité immédiate des données pour l'analyse et la prise de décision. Cette capacité s'inscrit dans des environnements dynamiques où l'information en temps utile est cruciale pour la compétitivité et l'efficacité opérationnelle.

Limites

  • Plus récent : bien que le CDC soit basé sur des technologies établies de longue date, en tant que technologie généralement disponible, il est relativement plus récent. Cette nouveauté signifie que certains praticiens peuvent ne pas être aussi familiers avec le CDC, ce qui peut nécessiter des efforts supplémentaires de formation et d'adaptation.
  • Compatibilité: la compatibilité avec le CDC dépend des caractéristiques du système source, telles que la présence de journaux de transactions ou des webhooks. Cette dépendance signifie que tous les systèmes ne sont pas compatibles avec le CDC, ce qui peut limiter le champ d'application dans certains environnements.
  • Configuration: le CDC peut nécessiter de la configuration chez les systèmes source afin de s'assurer que les changements soient émis. Cette étape peut s'avérer complexe pour les systèmes qui n'ont pas été conçus avec de l'incrémental, du CDC, ou des journaux de transactions.

Gratuit jusqu'à 1 million de lignes

Essayez vous-même ! Au-delà des 14 jours d'essai, Popsink est gratuit jusqu'à 1 million de lignes par mois.

Connectez-vous avec nous sur Slack

Rejoindre la communauté Slack