AccueilWeb & InternetData Mart, Data Warehouse ou Data Lake : Quelle stratégie pour stocker ses données ?

Web & Internet

Data Mart, Data Warehouse ou Data Lake : Quelle stratégie pour stocker ses données ?

Vue intérieure d'un marché couvert animé avec des stands variés

Découvrez l'effervescence d'un marché couvert où se mêlent couleurs et saveurs.

24 avril 2021

3 min de lecture

Aujourd’hui, le numérique est une réalité. Les entreprises les plus compétitives sont celles qui parviennent à exploiter efficacement leur données. Il existe une pléthore de stratégie de Data Management pour organiser ses données efficacement : Data Lake, Data Warehouse, Data Mart, Data Lab, etc.

Quelle stratégie est efficace en cette année ? C’est à cette question que nous allons répondre dans cette chronique.

Par essence, l’activité d’une entreprise est multi-process. En d’autres termes, pour atteindre son objectif de gestion, l’entreprise a besoin de découper son activité principale en plusieurs processus métiers, par exemple, le processus d’achat, le processus de vente, le processus d’exploitation, les processus de ressources humaines et bien d’autres.

Chacun de ces processus génère des données opérationnelles qui sont le plus souvent capturées soit à partir d’une application spécialisée telle qu’un ERP (Entreprise Ressource Planning), soit alors à travers des feuilles de calcul Excel (ou des fichiers plats, CSV, etc…).

Il s’en suit un « silotage des données » qui empêche au management d’avoir une vision globale de l’activité de l’entreprise : l’application de finance capture les données de la finance, l’application de logistique capture les données générées par le processus Logistique, l’application RH capture les données générées par les RH etc… Comme ces applications sont distinctes, propres à chaque processus métier, l’entreprise se retrouve avec plusieurs bases de données différentes.

Le Data Warehouse est la première solution d’intégration des données de ces différentes applications (ou bases de données). A titre de rappel, l’intégration est une stratégie informatique qui consiste à transférer toutes les données produites par des applications dans un répertoire unique afin que les utilisateurs et les autres systèmes de l’entreprise puissent y accéder. Le Data Warehouse intervient comme répertoire central et comme cadre d’homogénéisation de toutes les données de l’entreprise.

Son but est de fournir une vision unifiée et homogène de toute la data de l’entreprise. Il centralise toutes les données opérationnelles de l’entreprise dans un SGBDR et les organise en sujets métiers, qui sont mis à la disposition des utilisateurs métier correspondants. Il est possible d’en créer une version à périmètre plus réduit appelé Data Mart.

Le Data Warehouse/Data Mart fonctionne bien, mais uniquement pour des données structurées. Lorsqu’on doit faire face à une grande variété de données, alors il n’est plus approprié et il faut penser au Data Lake.

Pour comprendre le concept de Data Lake, il faut comprendre le contexte fonctionnel et technologique dans lequel les Data Warehouse fonctionnent actuellement. L’ère dans laquelle nous fonctionnons actuellement se caractérise par la croissance des différents types de données stockées. Les données stockées ne sont plus juste des données structurées d’ERP, mais ce sont des données aussi diverses que les logs d’activité des serveurs Web, les logs d’appels d’un centre appel, les données des réseaux sociaux qui combinent contenus textuels, images, audio et vidéos, les vidéos de centre de surveillance, les données de capteurs etc…

Pour résoudre les challenges liés au stockage et à l’exploitation de ces données, l’approche appropriée consiste à distribuer le stockage des données et à paralléliser leurs traitements sur un cluster Hadoop. Les technologies utilisées pour implémenter le Data Warehouse ne permettent ni le stockage distribué, ni le parallélisme des requêtes des utilisateurs.

Avec la baisse des coûts de stockage de données et du coût des ordinateurs, Hadoop peut être envisagé comme point unifié d’accès aux données et le HDFS, son système de fichiers, se présente comme l’option la plus profitable à la fois en termes de performance et de coûts financiers pour le stockage et le traitement des données. Cette approche où Hadoop est utilisé comme le point d’accès unique à toutes les données de l’entreprise est qualifié de Data Lake.

Nous espérons que maintenant, vous avez compris ce que c’est que le Data Warehouse, le Data Mart, le Data Lake, et que vous savez lequel utiliser en fonction de votre projet Big Data. Le résumé de cet article est qu’il n’y’a pas de meilleur concept entre les 3. Tout dépend de vos besoins, de votre budget et de l’état actuel de vos données.

Maxence Rose

Homme concentré sur deux écrans d'ordinateur dans un bureau

Agent dropshipping : pourquoi et comment le trouver ?

Femme blonde cachée derrière des feuilles de palmier

AdSpy, le meilleur outil pour trouver le fameux « Winner Product »