Data Lakes: Een belangrijke technologische aanpak voor data en juridische ontdekking

As highlighted by Jennifer Zaino in BizTech, a data lake is an architecture for storing high-volume, high-velocity, high-variety, as-is data in a centralized repository for Big Data and real-time analytics. And the technology is an attention-getter: The global data lakes market is expected to grow at a rate of 28 percent between 2017 and 2023.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Opmerking van de redacteur: Datalakes bieden een architecturale benadering voor het opslaan van gegevens met hoge volumes, hoge snelheid en grote verscheidenheid. Deze opslagbenadering is van toenemende belangstelling voor bedrijven, informatietechnologie en juridische professionals als ze proberen om te gaan met toenemende volumes en soorten gegevens in combinatie met de uitdaging van het ondervragen, identificeren en indexeren van gegevens, zodat het kan worden geanalyseerd om organisaties te helpen inzicht te vinden voor zakelijke voordelen, nalevingsverplichtingen en procesvereisten. In dit bericht is een compilatie van informatieve artikelextracten die nuttig kunnen zijn voor diegenen die meer willen leren over het voordeel van dataleren en hun potentieel op het gebied van gegevensdetectie en juridische ontdekking.

Een uittreksel uit een artikel van Jennifer Zaino via BizTech

Data Lakes bewijzen de sleutel tot moderne dataplatforms

Wat is een Data Lake?

Dataleren slaan gegevens van elk type op in zijn ruwe vorm, net zoals een echt meer een habitat biedt waar alle soorten wezens samen kunnen leven.

Een dataleer is een architectuur voor het opslaan van high-volume, hoge snelheid, grote verscheidenheid, as-is data in een gecentraliseerde repository voor Big Data en real-time analytics. En de technologie is een aandachtsgetter: de wereldwijde datamarken markt zal naar verwachting met 28 procent groeien tussen 2017 en 2023.

Bedrijven kunnen enorme hoeveelheden data — gestructureerd, semigestructureerd en ongestructureerd — in realtime een dataleer binnenhalen, van overal. Gegevens kunnen worden opgenomen via Internet of Things sensoren, clickstream activiteit op een website, logbestanden, social media feeds, video's en online transaction processing (OLTP) systemen, bijvoorbeeld. Er zijn geen beperkingen op de plaats waar de gegevens vandaan komen, maar het is een goed idee om metagegevens tagging te gebruiken om een bepaald niveau van organisatie toe te voegen aan wat wordt ingenomen, zodat relevante gegevens kunnen worden opgedoken voor query's en analyses.

„Om ervoor te zorgen dat een meer geen moeras wordt, is het erg handig om een catalogus te bieden die gegevens zichtbaar en toegankelijk maakt voor het bedrijf, maar ook voor IT-professionals en datamanagementprofessionals,” zegt Doug Henschen, Vice President en principal analist bij Constellation Research.

Data Lakes vs Data Magazijnen

Dataleren moeten niet worden verward met datawarehouses. Waar dataleren ruwe data opslaan, slaan magazijnen actuele en historische gegevens op een georganiseerde manier op.

IT-teams en data-ingenieurs moeten een datawarehouse beschouwen als een zeer gestructureerde omgeving, waar racks en containers duidelijk gelabeld zijn en soortgelijke items samen worden gestapeld voor de efficiëntie van de toeleveringsketen.

Het verschil tussen een dataleer en een datawarehouse heeft voornamelijk betrekking op analytics.

Datawarehouses zijn het beste om gestructureerde gegevens snel en met grote nauwkeurigheid en transparantie te analyseren voor management- of regelgevingsdoeleinden. Ondertussen zijn datalakes voorbereid voor experimenten, legt Kelle O'Neal, oprichter en CEO van management consulting firma First San Francisco Partners uit.

Met een dataleer kunnen bedrijven snel verschillende gegevenstypen uit meerdere bronnen laden en ad hoc analyses uitvoeren. Of een dataploeg kan machine learning in een dataleer gebruiken om „een naald in een hooiberg te vinden”, zegt O'Neal.

„De snelle opname van nieuwe datasets zou nooit mogelijk zijn in een traditioneel datawarehouse, met zijn datamodel—specifieke structuren en de beperkingen op het toevoegen van nieuwe bronnen of doelen,” zegt O'Neal.

Datawarehouses volgen een „schema on write” -benadering, waarbij een schema voor gegevens moet worden gedefinieerd voordat deze naar de database kunnen worden geschreven. Online Analytical Processing (OLAP) -technologie kan worden gebruikt om gegevens in een magazijn te analyseren en te evalueren, waardoor snelle reacties op complexe analytische vragen mogelijk zijn.

Datalakes hanteren een „schema on read” benadering, waarbij de gegevens alleen worden gestructureerd en getransformeerd als ze klaar zijn om te worden gebruikt. Om deze reden is het in een handomdraai om nieuwe gegevensbronnen in te voeren, en gebruikers hoeven niet vooraf te weten welke vragen ze willen beantwoorden. Met meren kunnen „verschillende soorten analyses op uw gegevens — zoals SQL-query's, big data-analytics, full-text search, real-time analytics en machine learning — worden gebruikt om inzichten te ontdekken”, aldus Amazon. Bovendien zijn datalassen in staat om realtime acties te ondernemen op basis van algoritmegestuurde analyses.

Bedrijven kunnen zowel dataleren als datawarehouses gebruiken. De beslissing over welke te gebruiken zet „het begrijpen en optimaliseren van wat de verschillende oplossingen het beste doen”, zegt O'Neal.

Lees het volledige artikel bij Data Lakes Proeven Key to Modern Data Platforms

Een uittreksel uit een artikel van Bernard Marr via Forbes

Wat is een Data Lake? Een super-eenvoudige verklaring voor iedereen

Sommigen denken ten onrechte dat een dataleer slechts de 2.0-versie is van een datawarehouse. Hoewel ze vergelijkbaar zijn, zijn het verschillende hulpmiddelen die voor verschillende doeleinden moeten worden gebruikt. James Dixon, de CTO van Pentaho wordt gecrediteerd met het benoemen van het concept van een data lake. Hij gebruikt de volgende analogie:

„Als je een datamart ziet als een opslag van flessenwater — gereinigd en verpakt en gestructureerd voor eenvoudig verbruik — dan is het dataleer een grote hoeveelheid water in een meer natuurlijke staat. De inhoud van de data lake stream in van een bron om het meer te vullen, en verschillende gebruikers van het meer kunnen komen om te onderzoeken, duiken in, of monsters te nemen.”

Een dataleer bevat gegevens op een ongestructureerde manier en er is geen hiërarchie of organisatie tussen de afzonderlijke stukken data. Het bevat gegevens in zijn rawest vorm - het wordt niet verwerkt of geanalyseerd. Bovendien accepteert en bewaart een dataleer alle gegevens uit alle gegevensbronnen, ondersteunt alle gegevenstypen, en schema's (de manier waarop de gegevens in een database worden opgeslagen) worden alleen toegepast wanneer de gegevens klaar zijn om te worden gebruikt.

Lees het complete artikel bij What Is A Data Lake? Een super-eenvoudige verklaring voor iedereen

Een uittreksel uit een artikel van Lance Weaver via Equinix

Waarom bedrijven in datalakes springen

Datalakes zijn een groeiende entiteit, en de industrie heeft zich niet samengevoegd rond een enkele, universeel aanvaarde definitie. Een consensus definitie, afgeleid van de raadpleging van verschillende bronnen, volgt: „Een data lake is een opslagmechanisme ontworpen om de colocatie en het gebruik van veel verschillende soorten gegevens te vergemakkelijken, waaronder data die is gedefinieerd met behulp van verschillende schema's, structurele kaders, blobs, en andere bestanden. ”

De hoop is dat een data lake het mogelijk zal maken voor een onderneming om nieuwe zakelijke inzichten te verkrijgen door het verzamelen van grote hoeveelheden gegevens, in het formaat gekozen door elke werklast, en vervolgens het gemakkelijk te verwerken met behulp van big data analytics, cross-workload analyse, rapportage, onderzoek en zelfs sommige vormen van transactionele werklasten.

De beweging in de richting van de implementatie van dataleren staat op het snijpunt van verschillende trends. Een daarvan is een stap van cloudserviceproviders die op zoek zijn naar innovatie en nieuwe opslagproducten.

Een andere trend ziet dat ondernemingen fundamentele verschuivingen in de bronnen van hun gegevens ervaren en hoe zij deze gebruiken. De gegevens komen nu van vele soorten apparaten en systemen die gericht zijn op de eindgebruiker en worden nog steeds gegenereerd en verwerkt door traditionele systemen. Er worden inspanningen ondernomen om al deze gestructureerde en ongestructureerde gegevens te combineren, ongeacht de vorm of oorspronkelijke intentie, waardoor het gemakkelijker wordt om zich aan te sluiten bij andere systemen van record. Dat is waar dataleren in komen.

Lees het complete artikel bij Why Companies As Jumping Into Data Lakes

Een uittreksel uit een artikel van Michael Lappin via Nuix

Structuur vinden voor uw ongestructureerde gegevens met behulp van datalakes

Waarom het meer vullen?

Over het algemeen hebben we een mix van proactieve en reactieve chauffeurs gezien die bedrijven duwen om een dataleer te creëren en te vullen.

Doorlopende eDiscovery: De meest populaire driver die we bij bedrijven zien is frustratie over traagheid of gebrek aan nauwkeurigheid bij het voltooien van iteratieve eDiscovery taken. Deze taken omvatten het doorzoeken en produceren van oude gegevens voor bewaarders die wettelijk worden vastgehouden.

Migratie of Extractie uit Legacy Email Archives: Grote e-mailarchieven zijn heel gebruikelijk en onbeheersbaar. Veel mensen geloven dat je nodig hebt om de gegevens te extraheren - of op zijn minst het deel ervan dat zinvol is (door een bewaarder of op datum) - indexeren en voorbereiden op ontdekking, governance of migratie naar een nieuw platform zoals Microsoft Office365.

Legal hold Management: Legal hold management is gekoppeld aan de vorige bestuurders en het lijkt vaak de vorm te hebben van het verwijderen van honderden of zelfs duizenden oude bezit en het terugbrengen tot een redelijk, beheersbaar aantal.

Gegevensprivacy en Information Governance: recente regelgeving over de hele wereld heeft geleid tot een nieuwe interesse in informatiebeheer. De meest bekendgemaakte hiervan, de Algemene Verordening Gegevensbescherming (AVG) van de Europese Unie, bevat maatregelen voor bedrijven om de verzoeken om toegang van betrokkenen te beantwoorden en de informatie op verzoek te schrappen onder de bepalingen „recht om te worden vergeten”. Daarnaast heeft de California Consumer Protection Act (CCPA) vergelijkbare beschermingsmaatregelen geïntroduceerd in de VS die zich waarschijnlijk zullen verspreiden naar andere staten.

Lees het volledige artikel op Finding Structure for Your Unstructured Data Using Data Lakes

Aanvullend lezen

Welke problemen zijn het meest bezorgd eDiscovery Business Professionals vandaag? Begrotingsbeperkingen (herfst 2019)

Automatisering van eDiscovery: een strategisch kader

Bron: ComplexDiscovery

Een concurrentievoordeel? FTC en DOJ geven antitrustrichtsnoeren uit voor de evaluatie van verticale fusies

According to FTC Chairman Joe Simons, “The new Guidelines reflect our...

Morae verwerft Juridisch Management Consultancy Janders Dean

According to Janders Dean founder Justin North, "Now more than ever,...

eDiscovery fusies, overnames en investeringen in Q2 2020

From UnitedLex to Onna, ComplexDiscovery findings, data points, and tracking information...

An Irish Update: DPC Ireland Publishes GDPR Regulatory Activity Report

The purpose of this two-year assessment is to provide a wider-angled...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

De handleiding voor kopers van eDisclosure Systems — editie 2020 (Andrew Haslam)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

De race naar de startlijn? Recente aankondigingen voor veilige externe beoordeling

Not all secure remote review offerings are equal as the apparent...

Remote eDiscovery inschakelen? Een momentopname van DaaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

Thuis of weg? eDiscovery Collection Market Overwegingen voor afmetingen en prijzen

One of the key home (onsite) or away (remote) decisions that...

Herzieningen en besluiten? Nieuwe overwegingen voor eDiscovery Secure Remote Reviews

One of the key revision and decision areas that business, legal,...

Een macro blik op het verleden en de verwachte eDiscovery Marktgrootte van 2012 tot 2024

From a macro look at past estimations of eDiscovery market size...

Een eDiscovery Marktgrootte Mashup: 2019-2024 wereldwijd overzicht van software en services

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Beperkte versnelling? De eDiscovery Summer 2020 Onderzoek naar het vertrouwen van bedrijven

Since January 2016, 2,089 individual responses to eighteen quarterly eDiscovery Business...

Een kwestie van Pricing? Een lopende update van halfjaarlijkse eDiscovery prijsonderzoeken

First administered in December of 2018 and conducted four times during...

Een pandemeconomische indicator? Resultaten van eDiscovery prijzen in de zomer 2020

Based on the complexity of data and legal discovery, it is...

COVID-19 Beperkt? De impact van zes problemen op het bedrijf van eDiscovery

In the spring of 2020, 51.2% of respondents viewed budgetary constraints...

Morae verwerft Juridisch Management Consultancy Janders Dean

According to Janders Dean founder Justin North, "Now more than ever,...

eDiscovery fusies, overnames en investeringen in Q2 2020

From UnitedLex to Onna, ComplexDiscovery findings, data points, and tracking information...

Mitratech verwerft CMPG Risicooplossingen

According to the announcement, with the inclusion of enterprise and vendor...

Onna verhoogt $27M in Series B financiering

"Since we first invested in Onna last year, Slack deployed their...

Vijf grote lezingen over eDiscovery voor juni 2020

From collection market size updates to cloud outsourcing guidelines, the June...

Vijf grote lezingen over eDiscovery voor mei 2020

From review market sizing revisions to pandemeconomic pricing, the May 2020...

Vijf grote lezingen op eDiscovery voor april 2020

From business confidence to the boom of Zoom, the April 2020...

Vijf grote lezingen over gegevensdetectie en juridische ontdekking voor maart 2020

From business continuity considerations to cybersecurity attacks, the March 2020 edition...