Data Lakes: Ein wichtiger technologischer Ansatz für Daten und Legal Discovery

As highlighted by Jennifer Zaino in BizTech, a data lake is an architecture for storing high-volume, high-velocity, high-variety, as-is data in a centralized repository for Big Data and real-time analytics. And the technology is an attention-getter: The global data lakes market is expected to grow at a rate of 28 percent between 2017 and 2023.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Anmerkung des Editors: Data Lakes bieten einen architektonischen Ansatz für die Speicherung von Daten mit hoher Lautstärke, hoher Geschwindigkeit und hoher Vielfalt. Dieser Speicheransatz ist von zunehmendem Interesse für Unternehmen, Informationstechnologien und Juristen, da sie sich mit zunehmenden Mengen und Datentypen beschäftigen möchten, verbunden mit der Herausforderung, Daten abzufragen, zu identifizieren und zu indizieren, sodass sie analysiert werden können, um Organisationen dabei zu helfen, Einblicke in die Geschäftsvorteil, Compliance-Verpflichtungen und Anforderungen an Rechtsstreitigkeiten. In diesem Beitrag ist eine Zusammenstellung von Informations-Artikel-Auszügen, die hilfreich für diejenigen sein können, die mehr über den Nutzen von Data Lakes und ihr Potenzial im Bereich der Datenermittlung und Rechtsfindung erfahren möchten.

Ein Auszug aus einem Artikel von Jennifer Zaino über BizTech

Data Lakes erweisen sich als Schlüssel für moderne Datenplattformen

Was ist ein Data Lake?

Data-Seen speichern Daten jeglicher Art in seiner rohen Form, so wie ein echter See einen Lebensraum bietet, in dem alle Arten von Kreaturen zusammenleben können.

Ein Data Lake ist eine Architektur zum Speichern von Daten mit hoher Datenmenge und hoher Geschwindigkeit in einem zentralen Repository für Big Data und Echtzeitanalysen. Und die Technologie ist ein Blickfang: Der globale Data Lakes Markt wird zwischen 2017 und 2023 voraussichtlich um 28 Prozent wachsen.

Unternehmen können riesige Datenmengen — strukturiert, halbstrukturiert und unstrukturiert — in Echtzeit von überall aus in einen Data Lake ziehen. Daten können beispielsweise von Internet of Things Sensoren, Clickstream-Aktivitäten auf einer Website, Logfiles, Social-Media-Feeds, Videos und OLTP-Systemen (Online Transaction Processing) aufgenommen werden. Es gibt keine Einschränkungen, woher die Daten stammen, aber es empfiehlt sich, Metadaten-Tagging zu verwenden, um eine Organisationsebene zu den aufgenommenen Daten hinzuzufügen, damit relevante Daten für Abfragen und Analysen angezeigt werden können.

„Um sicherzustellen, dass ein See nicht zum Sumpf wird, ist es sehr hilfreich, einen Katalog zur Verfügung zu stellen, der Daten sowohl für das Unternehmen als auch für IT- und Datenmanagement-Profis sichtbar und zugänglich macht“, sagt Doug Henschen, Vice President und Principal Analyst bei Constellation Research.

Data Lakes vs. Data Warehouses

Data Lakes sollten nicht mit Data Warehouses verwechselt werden. Wo Data Lakes Rohdaten speichern, speichern Lager aktuelle und historische Daten in organisierter Weise.

IT-Teams und Dateningenieure sollten sich ein Data Warehouse als eine hochstrukturierte Umgebung vorstellen, in der Racks und Container klar gekennzeichnet sind und ähnliche Elemente für die Effizienz der Lieferkette zusammengestapelt werden.

Der Unterschied zwischen einem Data Lake und einem Data Warehouse bezieht sich in erster Linie auf die Analyse.

Data Warehouses eignen sich am besten, strukturierte Daten schnell und mit großer Genauigkeit und Transparenz zu verwaltungstechnischen oder regulatorischen Zwecken zu analysieren. Inzwischen sind Data Lakes für Experimente vorbereitet, erklärt Kelle O'Neal, Gründerin und CEO des Managementberatungsunternehmens First San Francisco Partners.

Mit einem Data Lake können Unternehmen schnell eine Vielzahl von Datentypen aus mehreren Quellen laden und Ad-hoc-Analysen durchführen. Oder ein Datenteam könnte maschinelles Lernen in einem Datensee nutzen, um „eine Nadel im Heuhaufen“ zu finden, sagt O'Neal.

„Die rasche Einbeziehung neuer Datensätze wäre niemals in ein traditionelles Data Warehouse möglich, mit seinem Datenmodell — spezifischen Strukturen und seinen Einschränkungen beim Hinzufügen neuer Quellen oder Ziele“, sagt O'Neal.

Data Warehouses folgen einem „Schema-on-Write-Ansatz“, der dazu führt, ein Schema für Daten zu definieren, bevor es in die Datenbank schreiben kann. Die OLAP-Technologie (Online Analytical Processing) kann verwendet werden, um Daten in einem Lager zu analysieren und auszuwerten und so schnelle Antworten auf komplexe analytische Abfragen zu ermöglichen.

Data Lakes verwenden einen „Schema-on-Read-Ansatz“, bei dem die Daten nur dann strukturiert und transformiert werden, wenn sie zur Verwendung bereit sind. Aus diesem Grund ist es ein Kinderspiel, neue Datenquellen einzuführen, und die Benutzer müssen nicht im Voraus wissen, welche Fragen sie beantworten möchten. Mit Seen können „verschiedene Arten von Analysen Ihrer Daten — wie SQL-Abfragen, Big Data-Analysen, Volltextsuche, Echtzeitanalysen und maschinelles Lernen — verwendet werden, um Erkenntnisse aufzudecken“, so Amazon. Darüber hinaus sind Data Lakes in der Lage, Echtzeit-Aktionen basierend auf algorithmengesteuerten Analysen zu ermöglichen.

Unternehmen können sowohl Data Lakes als auch Data Warehouses nutzen. Die Entscheidung darüber, welche Anwendung zu verwenden ist, schaltet sich ein, „zu verstehen und zu optimieren, was die verschiedenen Lösungen am besten tun“, sagt O'Neal.

Lesen Sie den vollständigen Artikel unter Data Lakes Prove Key to Modern Data Platforms

Ein Auszug aus einem Artikel von Bernard Marr über Forbes

Was ist ein Data Lake? Eine supereinfache Erklärung für jedermann

Einige glauben fälschlicherweise, dass ein Data Lake nur die 2.0-Version eines Data Warehouse ist. Obwohl sie ähnlich sind, sind sie verschiedene Werkzeuge, die für verschiedene Zwecke verwendet werden sollten. James Dixon, CTO von Pentaho, wird mit der Benennung des Konzepts eines Data Lake gutgeschrieben. Er verwendet die folgende Analogie:

„Wenn Sie sich einen Datamart als Speicher von abgefülltem Wasser vorstellen — gereinigt und verpackt und strukturiert für einen einfachen Verbrauch — ist der Data Lake ein großes Gewässer in einem natürlicheren Zustand. Der Inhalt des Daten-See-Streams aus einer Quelle, um den See zu füllen, und verschiedene Benutzer des Sees können kommen, um zu untersuchen, zu tauchen oder Proben zu nehmen.“

Ein Data Lake speichert Daten unstrukturiert und es gibt keine Hierarchie oder Organisation unter den einzelnen Datenteilen. Es enthält Daten in ihrer Rawestform — sie werden nicht verarbeitet oder analysiert. Darüber hinaus akzeptiert und speichert ein Data Lake alle Daten aus allen Datenquellen, unterstützt alle Datentypen und Schemas (die Art und Weise, wie die Daten in einer Datenbank gespeichert werden) werden nur angewendet, wenn die Daten verwendet werden können.

Lesen Sie den vollständigen Artikel unter What Is A Data Lake? Eine supereinfache Erklärung für jedermann

Ein Auszug aus einem Artikel von Lance Weaver über Equinix

Warum Unternehmen in Data Lakes springen

Data Lakes sind eine sich entwickelnde Einheit, und die Branche hat sich nicht um eine einzige, allgemein akzeptierte Definition zusammengefasst. Eine Konsensdefinition, die sich aus der Konsultation mehrerer verschiedener Quellen ergibt, folgt: „Ein Data Lake ist ein Speichermechanismus, der die Colocation und Verwendung vieler verschiedener Datentypen erleichtert, einschließlich Daten, die mit verschiedenen Schemata, strukturellen Frameworks, Blobs und anderen Dateien datumsdefiniert sind. ”

Die Hoffnung ist, dass ein Data Lake es einem Unternehmen ermöglicht, neue geschäftliche Erkenntnisse zu gewinnen, indem große Datenmengen in dem von jeder Arbeitslast gewählten Format akkumuliert werden, und dann die Verarbeitung mithilfe von Big-Data-Analysen, Workload-Analysen, Reporting, Recherchen und sogar einigen Formen von Transaktions-Workloads.

Die Bewegung zur Implementierung von Data Lakes steht an der Schnittstelle mehrerer Trends. Zum einen handelt es sich um einen Schritt von Cloud-Service-Anbietern, die Innovationen entwickeln und neue Speicherprodukte bereitstellen möchten.

Ein weiterer Trend sieht, dass Unternehmen grundlegende Veränderungen in den Quellen ihrer Daten und deren Nutzung erfahren. Die Daten stammen nun von vielen Arten von Endnutzerorientierten Geräten und Systemen und werden immer noch von herkömmlichen Systemen generiert und verarbeitet. Es werden Anstrengungen unternommen, all diese strukturierten und unstrukturierten Daten unabhängig von ihrer Form oder ihrer ursprünglichen Absicht zu kombinieren, um die Verbindung mit anderen Datensatzsystemen zu erleichtern. Dort kommen Daten-Lakes ins Visum.

Lesen Sie den vollständigen Artikel unter Warum Unternehmen in Data Lakes springen

Ein Auszug aus einem Artikel von Michael Lappin via Nuix

Struktursuche für unstrukturierte Daten mithilfe von Data Lakes

Warum den See füllen?

Im Allgemeinen haben wir eine Mischung aus proaktiven und reaktiven Treibern gesehen, die Unternehmen dazu bewegen, einen Data Lake zu erstellen und zu füllen.

Laufende eDiscovery: Der beliebteste Treiber, den wir bei Unternehmen sehen, ist Frustration mit Langsamkeit oder mangelnder Genauigkeit beim Ausführen von iterativen eDiscovery-Aufgaben. Zu diesen Aufgaben gehört das Suchen und Erstellen von alten Daten für Verwalter, die gesetzlich verhaftet sind.

Migration oder Extraktion aus Legacy-E-Mail-Archiven: Große E-Mail-Archive sind sehr häufig und nicht verwaltbar. Viele Leute glauben, dass Sie die Daten extrahieren müssen — oder zumindest den Teil, der sinnvoll ist (nach einem Verwalter oder nach Datum) — und sie für die Erkennung, Governance oder Migration auf eine neue Plattform wie Microsoft Office365 vorbereiten müssen.

Legal Hold Management: Legal Hold Management ist mit den vorherigen Treibern verknüpft und es scheint oft die Form der Entfernung von Hunderten oder sogar Tausenden von alten Holds zu nehmen und sie auf eine vernünftige, überschaubare Zahl zu reduzieren.

Datenschutz und Information Governance: Die jüngsten Vorschriften auf der ganzen Welt haben zu einem neuen Interesse an Information Governance geführt. Die am meisten publizierte, die Datenschutz-Grundverordnung (DSGVO) der Europäischen Union, enthält Maßnahmen für Unternehmen zur Beantwortung der Anfragen der betroffenen Personen und Löschung der Informationen auf Anfrage unter den Bestimmungen des „Recht auf Vergessenheit“. Gleichzeitig hat der California Consumer Protection Act (CCPA) ähnliche Schutzmaßnahmen in den USA eingeführt, die sich wahrscheinlich auf andere Staaten ausbreiten werden.

Lesen Sie den vollständigen Artikel unter „Struktur für Ihre unstrukturierten Daten mithilfe von Data Lakes suchen“

Zusätzliche Lesung

Welche Probleme haben die meisten eDiscovery Business Professionals heute? Haushaltszwänge (Herbst 2019)

Automatisierung von eDiscovery: Ein strategischer Rahmen

Quelle: ComplexDiscovery

Ein Wettbewerbsvorteil? FTC und DOJ erteilen Kartellrichtlinien für die Bewertung vertikaler Fusionen

According to FTC Chairman Joe Simons, “The new Guidelines reflect our...

Morae erwirbt Rechtsberatung Janders Dean

According to Janders Dean founder Justin North, "Now more than ever,...

eDiscovery-Fusionen, Übernahmen und Investitionen im zweiten Quartal 2020

From UnitedLex to Onna, ComplexDiscovery findings, data points, and tracking information...

Irisches Update: DPC Irland veröffentlicht Bericht über die regulatorische Tätigkeit der DSGVO

The purpose of this two-year assessment is to provide a wider-angled...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Das eDisclosure Systems Buyers Guide — 2020 Edition (Andrew Haslam)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

Das Rennen zur Startlinie? Aktuelle Ankündigungen zur sicheren Remote-Überprüfung

Not all secure remote review offerings are equal as the apparent...

Remote-eDiscovery aktivieren? Eine Momentaufnahme von DaaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

Heim oder weg? Überlegungen zur Größenbestimmung und Preisgestaltung im eDiscovery-Sammlungsmarkt

One of the key home (onsite) or away (remote) decisions that...

Revisionen und Entscheidungen? Neue Überlegungen für eDiscovery Secure Remote Reviews

One of the key revision and decision areas that business, legal,...

Ein makroökonomisches Blick auf die Größe der vergangenen und projizierten eDiscovery-Märkte von 2012 bis 2024

From a macro look at past estimations of eDiscovery market size...

Ein eDiscovery Market Size Mashup: 2019-2024 Weltweiter Überblick über Software und Services

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Beschränkte Beschleunigung? Die Umfrage zum Vertrauensbewusstsein im Sommer 2020

Since January 2016, 2,089 individual responses to eighteen quarterly eDiscovery Business...

Eine Frage der Preisgestaltung? Eine laufende Aktualisierung der halbjährlichen eDiscovery-Preiserhebungen

First administered in December of 2018 and conducted four times during...

Ein Pandemeconomic Indikator? Ergebnisse der eDiscovery-Preisumfrage im Sommer 2020

Based on the complexity of data and legal discovery, it is...

COVID-19 eingeschränkt? Die Auswirkungen von sechs Themen auf das Geschäft von eDiscovery

In the spring of 2020, 51.2% of respondents viewed budgetary constraints...

Morae erwirbt Rechtsberatung Janders Dean

According to Janders Dean founder Justin North, "Now more than ever,...

eDiscovery-Fusionen, Übernahmen und Investitionen im zweiten Quartal 2020

From UnitedLex to Onna, ComplexDiscovery findings, data points, and tracking information...

Mitratech erwirbt CMPG-Risikolösungen

According to the announcement, with the inclusion of enterprise and vendor...

Onna sammelt 27 Millionen US-Dollar in Series B Finanzierung

"Since we first invested in Onna last year, Slack deployed their...

Fünf große Lesevorgänge auf eDiscovery für Juni 2020

From collection market size updates to cloud outsourcing guidelines, the June...

Fünf große Lesevorgänge auf eDiscovery für Mai 2020

From review market sizing revisions to pandemeconomic pricing, the May 2020...

Fünf große Lesevorgänge zu eDiscovery für April 2020

From business confidence to the boom of Zoom, the April 2020...

Fünf große Lesevorgänge zu Datenermittlung und Legal Discovery für März 2020

From business continuity considerations to cybersecurity attacks, the March 2020 edition...