Data lake : définition et introduction

Temps de lecture : 2 minutes

Publié le 10 février 2022

Souvent présenté comme la solution miracle quand on évoque le Big Data, le data lake sert à stocker une quantité importante de données en brisant les silos des systèmes d’information. Mais comment fonctionne-t-il ? Et en quoi diffère-t-il d’un data warehouse ? Définition.

Qu’est-ce qu’un data lake (ou lac de données) ?

Un data lake – ou lac de données en français – est une méthode de stockage de données au sein d’une entreprise. Issu de la mouvance du big data, il permet de stocker des données de manière massive. Et ce, dans leur format brut et granulaire, provenant d’un nombre conséquent de sources.

Par définition, il accepte tous les types de données. Ces données peuvent être stockées de manière structurées, semi structurées ou non structurées. Lors de leur importation, les données sont associées à un identifiant et un ensemble de balise de métadonnées pour permettre leur récupération et utilisation.

Utiliser un data lake permet ainsi d’avoir un espace de stockage facile d’utilisation, mais également d’avoir une vision d’ensemble initiale pour les data scientists. Cet outil a l’avantage d’éliminer la complexité liée à la réception et au stockage de l’ensemble des données. Ainsi les données sont à disposition rapidement en fonction de sa stratégie de gouvernance des données.

Livre Blanc

Création d’une ville hyperconnectée

Quelle sont les bonnes pratiques et les défis liés de la création d’une ville hyperconnectée ? Cet Ebook interactif et collaboratif vous dévoile son analyse sur les villes hyperconnectées.

Télécharger le livre blanc

Quelle est la différence entre un data lake et un data warehouse ?

Le lac de données et le data warehouse – entrepôt de données en français – ont un objectif similaire : la création d’un gisement de données centralisé permettant d’alimenter les différents usages de la données (analyses, applications, etc) d’une organisation.

Toutefois, les deux sont fondamentalement différents dans leur manière de stocker les informations. Le data warehouse nécessite un traitement de la donnée au préalable. Le data lake, quant à lui, stocke des données brutes et non transformées. En parallèle, le data warehouse extrait des informations structurées et les organise pour une fin précise, tandis que le data lake stocke toutes les données brutes pour des utilisations diverses et non définies. Le data warehouse sera donc préférable pour les utilisateurs opérationnels, alors que le data lake lui, sera un outil privilégié des data scientists.

Livre Blanc

Transformation numérique : la défense et le renseignement

Les opérations militaires et de renseignement adoptent facilement la transformation numérique pour améliorer leur préparation, moderniser leur environnement de travail et renforcer la collaboration.

Télécharger le livre blanc

Comment mettre en place un data lake ?

Azure Data Lake permet de créer rapidement et facilement un datalake dans le cloud modulable en termes de stockage. Celui-ci est d’ailleurs illimité et peut accueillir des fichiers de plusieurs pétaoctets. Conçu pour faire fonctionner des systèmes d’analyse à grande échelle, il peut interroger de grands volumes de données et les répartir sur plusieurs serveurs de stockage distincts. Il permet également d’activer l’espace de noms hiérarchique pour optimiser les performances de systèmes de fichiers en termes de mise à l’échelle sans forcer la création de silos de données distincts.

Le métavers au service de l’industrie

L’adaptive learning change les codes de l’apprentissage

Data Management: tout ce qu’il faut savoir