Data Lakes : une approche technologique importante pour la découverte de données et de documents juridiques

As highlighted by Jennifer Zaino in BizTech, a data lake is an architecture for storing high-volume, high-velocity, high-variety, as-is data in a centralized repository for Big Data and real-time analytics. And the technology is an attention-getter: The global data lakes market is expected to grow at a rate of 28 percent between 2017 and 2023.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Note de l'éditeur : Les lacs de données offrent une approche architecturale pour stocker des données volumineuses, à grande vitesse et à grande variété. Cette approche de stockage intéresse de plus en plus les professionnels des affaires, des technologies de l'information et du droit qui cherchent à faire face à l'augmentation des volumes et des types de données associés au défi de l'interrogation, de l'identification et de l'indexation des données afin qu'elles puissent être analysées afin d'aider les organisations à découvrir les avantages commerciaux, obligations de conformité et exigences en matière de litiges. Cet article contient une compilation d'extraits d'articles d'information qui peuvent être utiles pour ceux qui cherchent à en apprendre davantage sur les avantages des lacs de données et leur potentiel dans le domaine de la découverte de données et de la découverte juridique.

Extrait d'un article de Jennifer Zaino via BizTech

Les lacs de données s'avèrent essentiels pour les plates-formes de données modernes

Qu'est-ce qu'un Data Lake ?

Les lacs de données stockent des données de tout type sous leur forme brute, tout comme un vrai lac fournit un habitat où tous les types de créatures peuvent vivre ensemble.

Un lac de données est une architecture permettant de stocker des données en volume élevé, à grande vitesse, de grande variété et telles quelles dans un référentiel centralisé pour le Big Data et l'analyse en temps réel. Et la technologie attire l'attention : le marché mondial des lacs de données devrait croître à un rythme de 28 % entre 2017 et 2023.

Les entreprises peuvent extraire de grandes quantités de données — structurées, semi-structurées et non structurées — en temps réel dans un lac de données, où que ce soit. Les données peuvent être ingérées à partir de capteurs de l'Internet des objets, d'activités de flux de clics sur un site Web, de fichiers journaux, de flux de médias sociaux, de vidéos et de systèmes de traitement des transactions en ligne (OLTP), par exemple. Il n'y a pas de contraintes quant à l'origine des données, mais il est conseillé d'utiliser le balisage des métadonnées pour ajouter un certain niveau d'organisation à ce qui est ingéré, afin que les données pertinentes puissent être reproduites pour les requêtes et l'analyse.

« Pour éviter qu'un lac ne devienne un marais, il est très utile de fournir un catalogue qui rend les données visibles et accessibles à l'entreprise, ainsi qu'aux professionnels de l'informatique et de la gestion des données », explique Doug Henschen, vice-président et analyste principal chez Constellation Research.

Data Lakes vs Data Warehouses

Les lacs de données ne doivent pas être confondus avec les entrepôts de données. Lorsque les lacs de données stockent des données brutes, les entrepôts stockent les données actuelles et historiques de manière organisée.

Les équipes informatiques et les ingénieurs de données devraient considérer un entrepôt de données comme un environnement hautement structuré, où les racks et les conteneurs sont clairement étiquetés et où des articles similaires sont empilés ensemble pour l'efficacité de la chaîne d'approvisionnement.

La différence entre un lac de données et un entrepôt de données concerne principalement l'analyse.

Les entrepôts de données sont les meilleurs pour analyser rapidement les données structurées avec une grande précision et transparence à des fins de gestion ou de réglementation. Pendant ce temps, les lacs de données sont amorcés pour l'expérimentation, explique Kelle O'Neal, fondatrice et PDG du cabinet de conseil en gestion First San Francisco Partners.

Grâce à un lac de données, les entreprises peuvent charger rapidement une variété de types de données à partir de sources multiples et procéder à des analyses ad hoc. Ou, une équipe de données pourrait tirer parti de l'apprentissage automatique dans un lac de données pour trouver « une aiguille dans une botte de foin », explique O'Neal.

« L'inclusion rapide de nouveaux ensembles de données ne serait jamais possible dans un entrepôt de données traditionnel, avec ses structures spécifiques au modèle de données et ses contraintes à l'ajout de nouvelles sources ou cibles », explique O'Neal.

Les entrepôts de données suivent une approche « schéma en écriture », ce qui implique de définir un schéma pour les données avant de pouvoir l'écrire dans la base de données. La technologie de traitement analytique en ligne (OLAP) peut être utilisée pour analyser et évaluer des données dans un entrepôt, ce qui permet de répondre rapidement à des requêtes analytiques complexes.

Les lacs de données adoptent une approche « schéma en lecture », où les données sont structurées et transformées uniquement lorsqu'elles sont prêtes à être utilisées. Pour cette raison, il est facile d'introduire de nouvelles sources de données, et les utilisateurs n'ont pas à connaître à l'avance les questions auxquelles ils veulent répondre. Avec les lacs, « différents types d'analyses sur vos données — comme les requêtes SQL, l'analyse Big Data, la recherche en texte intégral, l'analyse en temps réel et l'apprentissage automatique — peuvent être utilisés pour découvrir des informations », selon Amazon. De plus, les lacs de données sont capables d'actions en temps réel basées sur des analyses basées sur des algorithmes.

Les entreprises peuvent utiliser à la fois des lacs de données et des entrepôts de données. La décision à utiliser consiste à « comprendre et optimiser ce que les différentes solutions font le mieux », explique O'Neal.

Lire l'article complet de Data Lakes Prouver Key to Modern Data Platforms

Extrait d'un article de Bernard Marr via Forbes

Qu'est-ce qu'un Data Lake ? Une explication super simple pour tout le monde

Certains croient à tort qu'un lac de données n'est que la version 2.0 d'un entrepôt de données. Bien qu'ils soient similaires, ce sont des outils différents qui devraient être utilisés à des fins différentes. James Dixon, le CTO de Pentaho, est crédité d'avoir nommé le concept d'un lac de données. Il utilise l'analogie suivante :

« Si vous considérez un datamart comme un magasin d'eau embouteillée — nettoyée, emballée et structurée pour une consommation facile — le data lake est un grand plan d'eau à l'état plus naturel. Le contenu des données du lac s'écoule à partir d'une source pour remplir le lac, et divers utilisateurs du lac peuvent venir examiner, plonger ou prélever des échantillons. »

Un lac de données contient les données de manière non structurée et il n'y a pas de hiérarchie ou d'organisation entre les données individuelles. Il conserve les données dans leur forme la plus rare : elles ne sont ni traitées ni analysées. En outre, un lac de données accepte et conserve toutes les données de toutes les sources de données, prend en charge tous les types de données et les schémas (la manière dont les données sont stockées dans une base de données) ne sont appliqués que lorsque les données sont prêtes à être utilisées.

Lisez l'article complet de What is A Data Lake ? Une explication super simple pour tout le monde

Extrait d'un article de Lance Weaver via Equinix

Pourquoi les entreprises s'attaquent aux Data Lakes

Les lacs de données sont une entité en développement, et l'industrie n'a pas fusionné autour d'une seule définition universellement acceptée. Une définition consensuelle, dérivée de la consultation de plusieurs sources différentes, se lit comme suit : « Un lac de données est un mécanisme de stockage conçu pour faciliter la colocation et l'utilisation de nombreux types de données, y compris des données qui sont définies à la date à l'aide de divers schémas, cadres structurels, blobs et autres fichiers. ”

L'espoir est qu'un lac de données permettra à une entreprise d'acquérir de nouvelles informations commerciales en accumulant de grandes quantités de données, dans le format choisi par chaque charge de travail, puis facilitera le traitement à l'aide de l'analyse du Big Data, de l'analyse croisée des charges de travail, des rapports, de la recherche et même de certaines formes de charges de travail transactionnelles.

Le mouvement vers la mise en œuvre des lacs de données se situe à l'intersection de plusieurs tendances. L'un d'eux est une initiative de fournisseurs de services cloud qui cherchent à innover et à fournir de nouveaux produits de stockage.

Une autre tendance montre que les entreprises connaissent des changements fondamentaux dans les sources de leurs données et la façon dont elles les utilisent. Les données proviennent maintenant de nombreux types de dispositifs et de systèmes axés sur l'utilisateur final et sont encore générées et traitées par les systèmes traditionnels. Des efforts sont en cours pour combiner toutes ces données structurées et non structurées, quelle que soit leur forme ou leur intention initiale, ce qui facilite la liaison avec d'autres systèmes d'enregistrement. C'est là que les lacs de données entrent en place.

Lisez l'article complet de Why Companies Saut dans Data Lakes

Extrait d'un article de Michael Lappin via Nuix

Recherche de la structure de vos données non structurées à l'aide des lacs de données

Pourquoi remplir le lac ?

En général, nous avons vu un mélange de facteurs proactifs et réactifs pousser les entreprises à créer et à remplir un lac de données.

Découverte électronique en cours : le moteur le plus populaire que nous voyons chez les entreprises est la frustration par la lenteur ou le manque de précision dans l'exécution des tâches itératives de découverte électronique. Ces tâches comprennent la recherche et la production de données anciennes pour les dépositaires en attente légale.

Migration ou extraction à partir d'archives de messagerie héritées : les archives de messagerie volumineuses sont très courantes et ingérable. Beaucoup de gens pensent que vous devez extraire les données — ou du moins la partie qui est logique (par un dépositaire ou par date) — les indexer et les préparer à la découverte, à la gouvernance ou à la migration vers une nouvelle plate-forme comme Microsoft Office365.

Gestion des mises en attente légales : La gestion des mises en attente légales est liée aux précédents conducteurs et elle semble souvent prendre la forme de supprimer des centaines, voire des milliers d'anciennes mises en attente et de les réduire à un nombre raisonnable et gérable.

Confidentialité des données et gouvernance de l'information : Les réglementations récentes dans le monde entier ont suscité un nouvel intérêt pour la gouvernance de l'information. Le règlement général sur la protection des données (RGPR) de l'Union européenne prévoit des mesures permettant aux entreprises de répondre aux demandes d'accès des personnes concernées et de supprimer les informations sur demande en vertu de ses dispositions relatives au « droit à l'oubli ». Parallèlement à cela, la California Consumer Protection Act (CCPA) a introduit des protections similaires aux États-Unis qui sont susceptibles de s'étendre à d'autres États.

Lisez l'article complet à la section Trouver une structure pour vos données non structurées à l'aide des lacs de données

Lecture supplémentaire

Quels sont les problèmes qui préoccupent le plus les professionnels de la découverte électronique aujourd'hui ? Contraintes budgétaires (automne 2019)

Automatisation de la découverte électronique : un cadre stratégique

Source : CompleDiscovery