Le CDC est une méthode qui permet d'augmenter l'efficacité des mouvements de données en capturant les changements point par point au lieu de prendre des images périodiques. Les avantages : plus rapide, moins de traitement et de ressources consomées.
L' Extract - Load est un modèle d'intégration de données visant à transférer des données brutes depuis des systèmes sources vers un système de stockage de données cible, généralement une data warehouse ou un data lake. Le processus consiste à venir scanner et extraire un lot de données de sa source, puis à le copier dans un système de stockage cible, et enfin à transformer les données à des fins analytiques.
Les processus ELT lisent périodiquement un système source (base de données, CRM, ERP...) et copient des datasets ou des parties de datasets - c'est ce qu'on appelle un Extract. Ils écrivent ensuite ces datasets dans une destination (généralement un data warehouse ou un data lake) sous forme de données brutes - c'est la partie Load. Les données étant chargées à l'état brut, elles nécessitent souvent un traitement supplémentaire, par exemple pour identifier les objets au sein d'un dataset qui sont en fait des mises à jour de lignes existantes, ou pour appliquer des logiques afin d'identifier les lignes qui pourraient avoir été supprimés. C'est la partie Transform.
Le CDC est un modèle utilisé pour reproduire les modifications apportées aux données d'un système plutôt que les données elles-mêmes. Le CDC identifie les changements tels que les nouveaux enregistrements, les mises à jour ou les suppressions. Ces modifications sont automatiquement appliquées à un système cible (qu'il s'agisse de datawarehouses ou d'outils) garantissant la cohérence des deux - ou plus - systèmes à tout moment.
Le CDC s'appuie sur les éléments internes des systèmes sources pour capturer les changements au fur et à mesure qu'ils se produisent. Il peut s'agir de journaux de base de données, d'évènements de service ou de webhooks. Les changements capturés sont ensuite transférés vers le système cible pour y être appliqués. En ne transportant que les changements et en les appliquant directement au système cible, le CDC permet d'assurer la cohérence des données entre plusieurs systèmes tout en déplaçant moins de données, et ce, avec une très faible lattence.
Essayez vous-même ! Au-delà des 14 jours d'essai, Popsink est gratuit jusqu'à 1 million de lignes par mois.