Data Lake, et si ce n’était plus la seule alternative de stockage en Big Data ?
Il est vrai qu’un data lake offre l’avantage d’ingérer (streaming) et de stocker de manière aveugle toutes les données brutes (format natif, données non structurées) … ce qui est en soit contraire aux principes de l’intégration de données (ETL) dans des Data Warehouses par nature organisés. Peu importe l’utilité des données, leur pertinence, leur usage (ou non), leur sécurisation ni leur gouvernance dans le temps…
On comprend clairement l’avantage d’un data lake car on peut stocker en volume toutes les data dans toute leur variété et leur diversité …. Et le stockage coûte finalement de moins en moins cher dans le cloud. Alors pourquoi se priver ?
L’avantage du Data lake est que l’on peut puiser dedans à la demande pour aller explorer des tendances ou lancer des analyses par exemple. C’est une solution économique et un gisement inépuisable de données quelle que soit leur structure, les Data Scientists en sont fans !
En revanche, les ingénieurs de la Data commencent à émettre des réserves… Déjà, vu que les données sont en « vrac », à chaque investigation ou analyse, il faut repartir de zéro ! Il y a aussi des problèmes d’éthique et de responsabilité environnementale qui comment à peser sur les consciences… En effet, d’ici 2030, les Data Centers du monde entier pourraient engloutir 10% de la production mondiale d’électricité contre déjà 3% à l’heure actuelle. Aujourd’hui, les Data Centers représentent à eux seuls 17% de l’empreinte carbone de la technologie. Avec 2% des émissions totales de gaz à effet de serre, leur empreinte carbone est similaire à celle de l’aviation de l’industrie. Et d’ici 2040, le stockage de données pourrait représenter 14% des émissions, soit autant que les États-Unis aujourd’hui ! Et au niveau respect des données personnelles ? Difficile dans un data lake de supprimer des informations personnelles comme l’impose le RGPD…
La bonne nouvelle ?
On assiste à l’émergence d’un mode hybride pour concevoir des entrepôts de données dits « déconstruits » ou lakehouse, compromis entre les entrepôts et les data lake; ainsi qu’une nouvelle conception d’architecture de données, le data mesh.
2022 devrait très être riche en innovations technologiques data !
À suivre notamment les innovations chez Teradata, Databricks, Informatica et Snowflake.
Pour approfondir le sujet :
– Data lake : https://www.codeur.com/blog/data-lake/
– Perspectives au delà du DW : https://www.lemagit.fr/actualites/252511515/Quelles-perspectives-au-dela-du-data-warehouse
– Data Mesh : https://www.teradata.fr/Trends/Data-Management/Data-Mesh-Future-of-Enterprise-Data-Architectures
– Impacts sur l’environnement : https://www.lebigdata.fr/data-centers-environnement
En savoir plus
La généralisation du DEVOPS et du CI/CD vous ont imposé de revoir vos méthodes de tests traditionnelles qui représentent en moyenne 35% des coûts d’un projet de développement et 30% du temps consacré au cahier de recette ! La fiabilité de votre SI est un combat de tous les jours car il évolue…
Harington est récompensé pour sa politique RSE et obtient une médaille d’or, attribuée par EcoVadis.
Harington se hisse dans le top 5% des entreprises qui ont la meilleure qualité de système de gestion de la RSE de l’entreprise. EcoVadis évalue la performance de plus de 50 000 entreprises dans 150 pays sur pas moins de 21 critères fondés sur les normes internationales de Développement Durable, regroupés…
Comment tout a commencé … Après un diplôme d’ingénieur option M.I.A.G.E, j’ai rejoint le monde du travail en 2009 en tant que Consultant BI. Et c’est par pur hasard que j’ai intégré Harington après avoir rencontré le président en 2014, Wadi Essafi, grâce à un ami que nous avions en…