Actus
Actus

Data Lake, et si ce n’était plus la seule alternative de stockage en Big Data ?

Il est vrai qu’un data lake offre l’avantage d’ingérer (streaming) et de stocker de manière aveugle toutes les données brutes (format natif, données non structurées) … ce qui est en soit contraire aux principes de l’intégration de données (ETL) dans des Data Warehouses par nature organisés. Peu importe l’utilité des données, leur pertinence, leur usage (ou non), leur sécurisation ni leur gouvernance dans le temps…

On comprend clairement l’avantage d’un data lake car on peut stocker en volume toutes les data dans toute leur variété et leur diversité …. Et le stockage coûte finalement de moins en moins cher dans le cloud. Alors pourquoi se priver ?
L’avantage du Data lake est que l’on peut puiser dedans à la demande pour aller explorer des tendances ou lancer des analyses par exemple. C’est une solution économique et un gisement inépuisable de données quelle que soit leur structure, les Data Scientists en sont fans !

En revanche, les ingénieurs de la Data commencent à émettre des réserves… Déjà, vu que les données sont en « vrac », à chaque investigation ou analyse, il faut repartir de zéro ! Il y a aussi des problèmes d’éthique et de responsabilité environnementale qui comment à peser sur les consciences… En effet, d’ici 2030, les Data Centers du monde entier pourraient engloutir 10% de la production mondiale d’électricité contre déjà 3% à l’heure actuelle. Aujourd’hui, les Data Centers représentent à eux seuls 17% de l’empreinte carbone de la technologie. Avec 2% des émissions totales de gaz à effet de serre, leur empreinte carbone est similaire à celle de l’aviation de l’industrie. Et d’ici 2040, le stockage de données pourrait représenter 14% des émissions, soit autant que les États-Unis aujourd’hui ! Et au niveau respect des données personnelles ? Difficile dans un data lake de supprimer des informations personnelles comme l’impose le RGPD…

La bonne nouvelle ?
On assiste à l’émergence d’un mode hybride pour concevoir des entrepôts de données dits « déconstruits » ou lakehouse, compromis entre les entrepôts et les data lake; ainsi qu’une nouvelle conception d’architecture de données, le data mesh.

2022 devrait très être riche en innovations technologiques data !

À suivre notamment les innovations chez Teradata, Databricks, Informatica et Snowflake.

Pour approfondir le sujet :
– Data lake : https://www.codeur.com/blog/data-lake/
– Perspectives au delà du DW : https://www.lemagit.fr/actualites/252511515/Quelles-perspectives-au-dela-du-data-warehouse
– Data Mesh : https://www.teradata.fr/Trends/Data-Management/Data-Mesh-Future-of-Enterprise-Data-Architectures
– Impacts sur l’environnement : https://www.lebigdata.fr/data-centers-environnement

En savoir plus
tests automatisés r&d innovation outils pratiques outils
REPLAY TECH AWAY : AUTOMATISATION DES TESTS AVEC LE RETOUR D’EXPÉRIENCE DE SEPHORA
La généralisation du DEVOPS et du CI/CD vous ont imposé de revoir vos méthodes de tests traditionnelles qui représentent en...
+ Lire
RSE ECOVADIS GOLD 2021
Harington est récompensé pour sa politique RSE et obtient une médaille d’or, attribuée par EcoVadis.
Harington se hisse dans le top 5% des entreprises qui ont la meilleure qualité de système de gestion de la...
+ Lire
BI Manager Data Tech Lead Europ Assistance Harington
Portrait de Salah, BI Manager en mission chez Europ Assistance et Data Tech Lead de Harington
Comment tout a commencé … Après un diplôme d’ingénieur option M.I.A.G.E, j’ai rejoint le monde du travail en 2009 en...
+ Lire