Data Lakes: Een belangrijke technologische aanpak voor data en juridische ontdekking

As highlighted by Jennifer Zaino in BizTech, a data lake is an architecture for storing high-volume, high-velocity, high-variety, as-is data in a centralized repository for Big Data and real-time analytics. And the technology is an attention-getter: The global data lakes market is expected to grow at a rate of 28 percent between 2017 and 2023.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Opmerking van de redacteur: Datalakes bieden een architecturale benadering voor het opslaan van gegevens met hoge volumes, hoge snelheid en grote verscheidenheid. Deze opslagbenadering is van toenemende belangstelling voor bedrijven, informatietechnologie en juridische professionals als ze proberen om te gaan met toenemende volumes en soorten gegevens in combinatie met de uitdaging van het ondervragen, identificeren en indexeren van gegevens, zodat het kan worden geanalyseerd om organisaties te helpen inzicht te vinden voor zakelijke voordelen, nalevingsverplichtingen en procesvereisten. In dit bericht is een compilatie van informatieve artikelextracten die nuttig kunnen zijn voor diegenen die meer willen leren over het voordeel van dataleren en hun potentieel op het gebied van gegevensdetectie en juridische ontdekking.

Een uittreksel uit een artikel van Jennifer Zaino via BizTech

Data Lakes bewijzen de sleutel tot moderne dataplatforms

Wat is een Data Lake?

Dataleren slaan gegevens van elk type op in zijn ruwe vorm, net zoals een echt meer een habitat biedt waar alle soorten wezens samen kunnen leven.

Een dataleer is een architectuur voor het opslaan van high-volume, hoge snelheid, grote verscheidenheid, as-is data in een gecentraliseerde repository voor Big Data en real-time analytics. En de technologie is een aandachtsgetter: de wereldwijde datamarken markt zal naar verwachting met 28 procent groeien tussen 2017 en 2023.

Bedrijven kunnen enorme hoeveelheden data — gestructureerd, semigestructureerd en ongestructureerd — in realtime een dataleer binnenhalen, van overal. Gegevens kunnen worden opgenomen via Internet of Things sensoren, clickstream activiteit op een website, logbestanden, social media feeds, video's en online transaction processing (OLTP) systemen, bijvoorbeeld. Er zijn geen beperkingen op de plaats waar de gegevens vandaan komen, maar het is een goed idee om metagegevens tagging te gebruiken om een bepaald niveau van organisatie toe te voegen aan wat wordt ingenomen, zodat relevante gegevens kunnen worden opgedoken voor query's en analyses.

„Om ervoor te zorgen dat een meer geen moeras wordt, is het erg handig om een catalogus te bieden die gegevens zichtbaar en toegankelijk maakt voor het bedrijf, maar ook voor IT-professionals en datamanagementprofessionals,” zegt Doug Henschen, Vice President en principal analist bij Constellation Research.

Data Lakes vs Data Magazijnen

Dataleren moeten niet worden verward met datawarehouses. Waar dataleren ruwe data opslaan, slaan magazijnen actuele en historische gegevens op een georganiseerde manier op.

IT-teams en data-ingenieurs moeten een datawarehouse beschouwen als een zeer gestructureerde omgeving, waar racks en containers duidelijk gelabeld zijn en soortgelijke items samen worden gestapeld voor de efficiëntie van de toeleveringsketen.

Het verschil tussen een dataleer en een datawarehouse heeft voornamelijk betrekking op analytics.

Datawarehouses zijn het beste om gestructureerde gegevens snel en met grote nauwkeurigheid en transparantie te analyseren voor management- of regelgevingsdoeleinden. Ondertussen zijn datalakes voorbereid voor experimenten, legt Kelle O'Neal, oprichter en CEO van management consulting firma First San Francisco Partners uit.

Met een dataleer kunnen bedrijven snel verschillende gegevenstypen uit meerdere bronnen laden en ad hoc analyses uitvoeren. Of een dataploeg kan machine learning in een dataleer gebruiken om „een naald in een hooiberg te vinden”, zegt O'Neal.

„De snelle opname van nieuwe datasets zou nooit mogelijk zijn in een traditioneel datawarehouse, met zijn datamodel—specifieke structuren en de beperkingen op het toevoegen van nieuwe bronnen of doelen,” zegt O'Neal.

Datawarehouses volgen een „schema on write” -benadering, waarbij een schema voor gegevens moet worden gedefinieerd voordat deze naar de database kunnen worden geschreven. Online Analytical Processing (OLAP) -technologie kan worden gebruikt om gegevens in een magazijn te analyseren en te evalueren, waardoor snelle reacties op complexe analytische vragen mogelijk zijn.

Datalakes hanteren een „schema on read” benadering, waarbij de gegevens alleen worden gestructureerd en getransformeerd als ze klaar zijn om te worden gebruikt. Om deze reden is het in een handomdraai om nieuwe gegevensbronnen in te voeren, en gebruikers hoeven niet vooraf te weten welke vragen ze willen beantwoorden. Met meren kunnen „verschillende soorten analyses op uw gegevens — zoals SQL-query's, big data-analytics, full-text search, real-time analytics en machine learning — worden gebruikt om inzichten te ontdekken”, aldus Amazon. Bovendien zijn datalassen in staat om realtime acties te ondernemen op basis van algoritmegestuurde analyses.

Bedrijven kunnen zowel dataleren als datawarehouses gebruiken. De beslissing over welke te gebruiken zet „het begrijpen en optimaliseren van wat de verschillende oplossingen het beste doen”, zegt O'Neal.

Lees het volledige artikel bij Data Lakes Proeven Key to Modern Data Platforms

Een uittreksel uit een artikel van Bernard Marr via Forbes

Wat is een Data Lake? Een super-eenvoudige verklaring voor iedereen

Sommigen denken ten onrechte dat een dataleer slechts de 2.0-versie is van een datawarehouse. Hoewel ze vergelijkbaar zijn, zijn het verschillende hulpmiddelen die voor verschillende doeleinden moeten worden gebruikt. James Dixon, de CTO van Pentaho wordt gecrediteerd met het benoemen van het concept van een data lake. Hij gebruikt de volgende analogie:

„Als je een datamart ziet als een opslag van flessenwater — gereinigd en verpakt en gestructureerd voor eenvoudig verbruik — dan is het dataleer een grote hoeveelheid water in een meer natuurlijke staat. De inhoud van de data lake stream in van een bron om het meer te vullen, en verschillende gebruikers van het meer kunnen komen om te onderzoeken, duiken in, of monsters te nemen.”

Een dataleer bevat gegevens op een ongestructureerde manier en er is geen hiërarchie of organisatie tussen de afzonderlijke stukken data. Het bevat gegevens in zijn rawest vorm - het wordt niet verwerkt of geanalyseerd. Bovendien accepteert en bewaart een dataleer alle gegevens uit alle gegevensbronnen, ondersteunt alle gegevenstypen, en schema's (de manier waarop de gegevens in een database worden opgeslagen) worden alleen toegepast wanneer de gegevens klaar zijn om te worden gebruikt.

Lees het complete artikel bij What Is A Data Lake? Een super-eenvoudige verklaring voor iedereen

Een uittreksel uit een artikel van Lance Weaver via Equinix

Waarom bedrijven in datalakes springen

Datalakes zijn een groeiende entiteit, en de industrie heeft zich niet samengevoegd rond een enkele, universeel aanvaarde definitie. Een consensus definitie, afgeleid van de raadpleging van verschillende bronnen, volgt: „Een data lake is een opslagmechanisme ontworpen om de colocatie en het gebruik van veel verschillende soorten gegevens te vergemakkelijken, waaronder data die is gedefinieerd met behulp van verschillende schema's, structurele kaders, blobs, en andere bestanden. ”

De hoop is dat een data lake het mogelijk zal maken voor een onderneming om nieuwe zakelijke inzichten te verkrijgen door het verzamelen van grote hoeveelheden gegevens, in het formaat gekozen door elke werklast, en vervolgens het gemakkelijk te verwerken met behulp van big data analytics, cross-workload analyse, rapportage, onderzoek en zelfs sommige vormen van transactionele werklasten.

De beweging in de richting van de implementatie van dataleren staat op het snijpunt van verschillende trends. Een daarvan is een stap van cloudserviceproviders die op zoek zijn naar innovatie en nieuwe opslagproducten.

Een andere trend ziet dat ondernemingen fundamentele verschuivingen in de bronnen van hun gegevens ervaren en hoe zij deze gebruiken. De gegevens komen nu van vele soorten apparaten en systemen die gericht zijn op de eindgebruiker en worden nog steeds gegenereerd en verwerkt door traditionele systemen. Er worden inspanningen ondernomen om al deze gestructureerde en ongestructureerde gegevens te combineren, ongeacht de vorm of oorspronkelijke intentie, waardoor het gemakkelijker wordt om zich aan te sluiten bij andere systemen van record. Dat is waar dataleren in komen.

Lees het complete artikel bij Why Companies As Jumping Into Data Lakes

Een uittreksel uit een artikel van Michael Lappin via Nuix

Structuur vinden voor uw ongestructureerde gegevens met behulp van datalakes

Waarom het meer vullen?

Over het algemeen hebben we een mix van proactieve en reactieve chauffeurs gezien die bedrijven duwen om een dataleer te creëren en te vullen.

Doorlopende eDiscovery: De meest populaire driver die we bij bedrijven zien is frustratie over traagheid of gebrek aan nauwkeurigheid bij het voltooien van iteratieve eDiscovery taken. Deze taken omvatten het doorzoeken en produceren van oude gegevens voor bewaarders die wettelijk worden vastgehouden.

Migratie of Extractie uit Legacy Email Archives: Grote e-mailarchieven zijn heel gebruikelijk en onbeheersbaar. Veel mensen geloven dat je nodig hebt om de gegevens te extraheren - of op zijn minst het deel ervan dat zinvol is (door een bewaarder of op datum) - indexeren en voorbereiden op ontdekking, governance of migratie naar een nieuw platform zoals Microsoft Office365.

Legal hold Management: Legal hold management is gekoppeld aan de vorige bestuurders en het lijkt vaak de vorm te hebben van het verwijderen van honderden of zelfs duizenden oude bezit en het terugbrengen tot een redelijk, beheersbaar aantal.

Gegevensprivacy en Information Governance: recente regelgeving over de hele wereld heeft geleid tot een nieuwe interesse in informatiebeheer. De meest bekendgemaakte hiervan, de Algemene Verordening Gegevensbescherming (AVG) van de Europese Unie, bevat maatregelen voor bedrijven om de verzoeken om toegang van betrokkenen te beantwoorden en de informatie op verzoek te schrappen onder de bepalingen „recht om te worden vergeten”. Daarnaast heeft de California Consumer Protection Act (CCPA) vergelijkbare beschermingsmaatregelen geïntroduceerd in de VS die zich waarschijnlijk zullen verspreiden naar andere staten.

Lees het volledige artikel op Finding Structure for Your Unstructured Data Using Data Lakes

Aanvullend lezen

Welke problemen zijn het meest bezorgd eDiscovery Business Professionals vandaag? Begrotingsbeperkingen (herfst 2019)

Automatisering van eDiscovery: een strategisch kader

Bron: ComplexDiscovery

Incidentele groei? De kosten van een datalek raken recordhoog volgens nieuw rapport
Cyberdreigingen op afstand houden? Opstarten van cyberverzekeringen At-Bay sluit de financiering van serie D
Een economische impact? Hoe cyberverzekering de respons van incidenten vormt
Een venster naar Malware? Het nieuwe Malware Reverse Engineering Handboek van CCDCOE
Cobra Juridische oplossingen verwerft digitale ontdekking

According to Candice Corby, Chief Executive Officer for Cobra Legal Solutions,...

TransPerfect en Semantix samenvoegen

According to TransPerfect President and CEO Phil Shawe, “We have competed...

Braintrace Verworven door Sophos

According to Bret Laughlin, CEO and co-founder of Braintrace, “NDR is...

DISCO kondigt IPO-prijzen aan

A registration statement relating to the initial public offering by DISCO...

A New Era in eDiscovery? Framing Market Growth Through the Lens of Six Eras

There are many excellent resources for considering chronological and historiographical approaches...

Een eDiscovery Market Size Mashup: 2020-2025 Wereldwijd overzicht van software en services

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

De basislijn resetten? EDiscovery Marktgrootte aanpassingen voor 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Thuis of weg? eDiscovery Collection Market Overwegingen voor afmetingen en prijzen

One of the key home (onsite) or away (remote) decisions that...

Vijf geweldige lezingen over cyber, data en juridische ontdekking voor juli 2021

From considerations for cyber insurance and malware to eDiscovery business confidence...

Vijf geweldige lezingen op eDiscovery voor juni 2021

From remediating cyberattacks to eDiscovery pricing, the June 2021 edition of...

Vijf geweldige lezingen op eDiscovery voor mei 2021

From cyber discovery and data breaches to business of law and...

Vijf geweldige lezingen op eDiscovery voor april 2021

From X-Road® and risk management to business confidence and cybersecurity, the...

Gloeiende verwachtingen? Achttien waarnemingen over het vertrouwen van eDiscovery in de zomer van 2021

In the summer of 2021, 63.3% of survey respondents felt that...

Problemen die van invloed zijn op de bedrijfsprestaties van eDiscovery: een overzicht

In the summer of 2021, 24.4% of respondents viewed increasing types...

Op zoek naar boven? Operationele statistieken van eDiscovery in de zomer van 2021

In the summer of 2021, 80 eDiscovery Business Confidence Survey participants...

Extreme warmte? Resultaten van de zomer 2021 eDiscovery Bedrijfsvertrouwen

Since January 2016, 2,522 individual responses to twenty-three quarterly eDiscovery Business...