Etwas fehlt? Themen-Modellierung in eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Anmerkung des Herausgebers: Als Autor, Mitwirkender und Redner auf eDiscovery ist Herbert Roitblat Technologie-Unternehmer, Erfinder und Experte, der keine Einführung in ernsthafte Fachleute im eDiscovery-Ökosystem braucht. Derzeit arbeitet er als Principal Data Scientist bei Mimecast und ist ein anerkannter Experte in den Bereichen Kognitionswissenschaft und Informationsabruf bis hin zu eDiscovery und maschinellem Lernen. Ein produktiver Forscher und Autor, sein kürzlich veröffentlichtes Papier über die Studie der aktuellen Modellierung in eDiscovery lenkt die Aufmerksamkeit auf den Suchprozess in der rechtlichen Entdeckung und hebt hervor, dass ein computergestützter Suchprozess nicht nur sinnvoll ist, sondern auch vollständig ist, wenn er nach Themen gemessen wird. Dieses Papier, das mit Erlaubnis geteilt wird, ist für Ihre Prüfung zur Verfügung gestellt.

Gibt es etwas, das mir fehlt? Themen-Modellierung in eDiscovery

Von Herbert Roitblat, Ph.D.

Abstrakt

In der rechtlichen eDiscovery sind die Parteien verpflichtet, ihre elektronisch gespeicherten Informationen zu durchsuchen, um Dokumente zu finden, die für einen bestimmten Fall relevant sind. Die Verhandlungen über den Umfang dieser Recherchen beruhen oft auf der Angst, dass etwas übersehen wird. Dieses Papier setzt ein Argument fort, dass die Entdeckung auf der Identifizierung der Fakten eines Falles beruhen sollte. Wenn ein Suchvorgang weniger als abgeschlossen ist (wenn er Rückruf weniger als 100% hat), kann er dennoch abgeschlossen sein, wenn alle relevanten verfügbaren Themen präsentiert werden. In dieser Studie wurde Latent Dirichlet Allocation verwendet, um 100 Themen aus allen bekannten relevanten Dokumenten zu identifizieren. Die Dokumente wurden dann zu etwa 80% Rückruf kategorisiert (d.h. 80% der relevanten Dokumente wurden vom Kategorisierer gefunden, der Treffersatz bezeichnet und 20% wurden verpasst, bezeichnet den verpassten Satz). Trotz der Tatsache, dass weniger als alle relevanten Dokumente vom Kategorisierer identifiziert wurden, enthielten die identifizierten Dokumente alle Themen, die aus dem vollständigen Satz von Dokumenten abgeleitet wurden. Dasselbe Muster hielt fest, ob der Kategorizer ein naiver Bayes-Kategorisierer war, der auf einer zufälligen Auswahl von Dokumenten trainiert wurde, oder eine Support-Vektor-Maschine, die mit Continuous Active Learning trainiert wurde (wobei die Bewertung auf die am ehesten wahrscheinlichen relevanten Dokumente konzentriert wird). In den verpassten Kategorien wurden keine Themen identifiziert, die nicht bereits im Treffersatz zu sehen waren. Ein computergestützter Suchprozess ist nicht nur sinnvoll (wie es in der Bundesordnung des Zivilprozessrechts vorgeschrieben ist), sondern auch bei der Messung nach Themen abgeschlossen.

Lesen Sie das komplette Papier (PDF)

Thema Modellierung in eDiscovery — Herbert Roitblat Ph.D.

Lesen Sie das Originalpapier über ArXiv® (Cornell University)

Zusätzliche Lesung

Ist alles relativ? Umfrage zu Predictive Coding Technologies und Protokolle - Ergebnisse Frühjahr 2020

Von Plattformen zu Workflows: Predictive Coding Technologies und Protokolle Umfrage - Ergebnisse Herbst 2019

Quelle: ComplexDiscovery

Die Baseline zurücksetzen? eDiscovery-Marktgrößenanpassungen für 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Neu von NIST: Integration von Cybersecurity und Enterprise Risk Management (ERM)

NIST has released NISTIR 8286, Integrating Cybersecurity and Enterprise Risk Management...

Eine bewölkte Allianz? Eine Cloud der nächsten Generation für Europa

According to Thierry Breton, Commissioner for the Internal Market, "Europe needs...

Fünf große Lesevorgänge auf eDiscovery für Oktober 2020

From business confidence and captive ALSPs to digital republics and mass...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Das eDisclosure Systems Buyers Guide — 2020 Edition (Andrew Haslam)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

Das Rennen zur Startlinie? Aktuelle Ankündigungen zur sicheren Remote-Überprüfung

Not all secure remote review offerings are equal as the apparent...

Remote-eDiscovery aktivieren? Eine Momentaufnahme von DaaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

Die Baseline zurücksetzen? eDiscovery-Marktgrößenanpassungen für 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Heim oder weg? Überlegungen zur Größenbestimmung und Preisgestaltung im eDiscovery-Sammlungsmarkt

One of the key home (onsite) or away (remote) decisions that...

Revisionen und Entscheidungen? Neue Überlegungen für eDiscovery Secure Remote Reviews

One of the key revision and decision areas that business, legal,...

Ein makroökonomisches Blick auf die Größe der vergangenen und projizierten eDiscovery-Märkte von 2012 bis 2024

From a macro look at past estimations of eDiscovery market size...

Eine Jahreszeit des Wandels? Achtzehn Beobachtungen zum Vertrauen der eDiscovery-Unternehmen im Herbst 2020

In the fall of 2020, 77.2% of eDiscovery Business Confidence Survey...

Der anhaltende Fall von Haushaltszwängen im Geschäft von eDiscovery

In the fall of 2020, 49.4% of respondents viewed budgetary constraints...

Ausstehende Konten? eDiscovery-Betriebs-Metriken im Herbst 2020

In the fall of 2020, eDiscovery Business Confidence Survey more...

Halten Sie das Ruder? Ergebnisse der Umfrage zum Vertrauen der Unternehmen im Herbst 2020

This is the twentieth quarterly eDiscovery Business Confidence Survey conducted by...

DISCO sammelt 60 Millionen US-Dollar

According to the media release, DISCO will use this investment to...

Rampiva und die RYABI Gruppe verschmelzen

According to today's announcement, the RYABI Group merger is Rampiva's first...

eDiscovery-Fusionen, Übernahmen und Investitionen im 3. Quartal 2020

From HaystackID and NightOwl Global to Reveal Data and NexLP, the...

Mitratech erwirbt Acuity ELM

According to Mike Williams, CEO of Mitratech, “We came to the...

Fünf große Lesevorgänge auf eDiscovery für Oktober 2020

From business confidence and captive ALSPs to digital republics and mass...

Fünf große Lesevorgänge auf eDiscovery für September 2020

From cloud forensics and cyber defense to social media and surveys,...

Fünf große Lesevorgänge auf eDiscovery für August 2020

From predictive coding and artificial intelligence to antitrust investigations and malware,...

Fünf große Lesevorgänge auf eDiscovery für Juli 2020

From business confidence and operational metrics to data protection and privacy...