Etwas fehlt? Themen-Modellierung in eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Anmerkung des Herausgebers: Als Autor, Mitwirkender und Redner auf eDiscovery ist Herbert Roitblat Technologie-Unternehmer, Erfinder und Experte, der keine Einführung in ernsthafte Fachleute im eDiscovery-Ökosystem braucht. Derzeit arbeitet er als Principal Data Scientist bei Mimecast und ist ein anerkannter Experte in den Bereichen Kognitionswissenschaft und Informationsabruf bis hin zu eDiscovery und maschinellem Lernen. Ein produktiver Forscher und Autor, sein kürzlich veröffentlichtes Papier über die Studie der aktuellen Modellierung in eDiscovery lenkt die Aufmerksamkeit auf den Suchprozess in der rechtlichen Entdeckung und hebt hervor, dass ein computergestützter Suchprozess nicht nur sinnvoll ist, sondern auch vollständig ist, wenn er nach Themen gemessen wird. Dieses Papier, das mit Erlaubnis geteilt wird, ist für Ihre Prüfung zur Verfügung gestellt.

Gibt es etwas, das mir fehlt? Themen-Modellierung in eDiscovery

Von Herbert Roitblat, Ph.D.

Abstrakt

In der rechtlichen eDiscovery sind die Parteien verpflichtet, ihre elektronisch gespeicherten Informationen zu durchsuchen, um Dokumente zu finden, die für einen bestimmten Fall relevant sind. Die Verhandlungen über den Umfang dieser Recherchen beruhen oft auf der Angst, dass etwas übersehen wird. Dieses Papier setzt ein Argument fort, dass die Entdeckung auf der Identifizierung der Fakten eines Falles beruhen sollte. Wenn ein Suchvorgang weniger als abgeschlossen ist (wenn er Rückruf weniger als 100% hat), kann er dennoch abgeschlossen sein, wenn alle relevanten verfügbaren Themen präsentiert werden. In dieser Studie wurde Latent Dirichlet Allocation verwendet, um 100 Themen aus allen bekannten relevanten Dokumenten zu identifizieren. Die Dokumente wurden dann zu etwa 80% Rückruf kategorisiert (d.h. 80% der relevanten Dokumente wurden vom Kategorisierer gefunden, der Treffersatz bezeichnet und 20% wurden verpasst, bezeichnet den verpassten Satz). Trotz der Tatsache, dass weniger als alle relevanten Dokumente vom Kategorisierer identifiziert wurden, enthielten die identifizierten Dokumente alle Themen, die aus dem vollständigen Satz von Dokumenten abgeleitet wurden. Dasselbe Muster hielt fest, ob der Kategorizer ein naiver Bayes-Kategorisierer war, der auf einer zufälligen Auswahl von Dokumenten trainiert wurde, oder eine Support-Vektor-Maschine, die mit Continuous Active Learning trainiert wurde (wobei die Bewertung auf die am ehesten wahrscheinlichen relevanten Dokumente konzentriert wird). In den verpassten Kategorien wurden keine Themen identifiziert, die nicht bereits im Treffersatz zu sehen waren. Ein computergestützter Suchprozess ist nicht nur sinnvoll (wie es in der Bundesordnung des Zivilprozessrechts vorgeschrieben ist), sondern auch bei der Messung nach Themen abgeschlossen.

Lesen Sie das komplette Papier (PDF)

Thema Modellierung in eDiscovery — Herbert Roitblat Ph.D.

Lesen Sie das Originalpapier über ArXiv® (Cornell University)

Zusätzliche Lesung

Ist alles relativ? Umfrage zu Predictive Coding Technologies und Protokolle - Ergebnisse Frühjahr 2020

Von Plattformen zu Workflows: Predictive Coding Technologies und Protokolle Umfrage - Ergebnisse Herbst 2019

Quelle: ComplexDiscovery

Aufdecken Und Brainspace verschmelzen

According to Wendell Jisa, founder and CEO of Reveal, "Backed by...

eDiscovery Fusionen, Übernahmen und Investitionen im Jahr 2020

Since beginning to track the number of publicly highlighted merger, acquisition,...

Relativitätstheorie erwirbt VerQu

According to Relativity CEO Mike Gamson, "It's imperative that the legal...

eDiscovery Fusionen, Übernahmen und Investitionen im vierten Quartal 2020

From Nuix and DISCO to Exterro and AccessData, the following findings,...

Eine neue Ära in eDiscovery? Rahmen des Marktwachstums durch die Linse von sechs Epochen

There are many excellent resources for considering chronological and historiographical approaches...

Ein eDiscovery-Markt-Mashup: 2020-2025 Weltweiter Überblick über Software und Services

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Die Baseline zurücksetzen? eDiscovery-Marktgrößenanpassungen für 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Heim oder weg? Überlegungen zur Größenbestimmung und Preisgestaltung im eDiscovery-Sammlungsmarkt

One of the key home (onsite) or away (remote) decisions that...

Fünf großartige Lesungen auf eDiscovery für Januar 2021

From eDiscovery business confidence and operational metrics to merger and acquisition...

Fünf großartige Lesungen auf eDiscovery für Dezember 2020

May the peace and joy of the holiday season be with...

Fünf großartige Lesungen auf eDiscovery für November 2020

From market sizing and cyber law to industry investments and customer...

Fünf große Lesevorgänge auf eDiscovery für Oktober 2020

From business confidence and captive ALSPs to digital republics and mass...

Nur eine Frage der Zeit? HayStackID startet neuen Service für die Erkennung und Überprüfung von Datenschutzverletzungen

According to HaystackID's Chief Innovation Officer and President of Global Investigations,...

Es ist ein Spiel! Fokussierung auf die Gesamtkosten der eDiscovery-Überprüfung mit ReviewRight Match

As a leader in remote legal document review, HaystackID provides clients...

Von der proaktiven Erkennung bis zur Überprüfung von Datenverletzungen: Erkennung und Extraktion sensibler Daten mit Ascema

A steady rise in the number of sensitive data discovery requirements...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Probleme, die sich auf die Geschäftsentwicklung von eDiscovery auswirken: Ein Überblick über den

In the winter of 2021, 43.3% of respondents viewed budgetary constraints...

Nicht so herausragend? Operative Metriken von eDiscovery im Winter 2021

In the winter of 2021, eDiscovery Business Confidence Survey more...

Ergebnisse der eDiscovery-Umfrage zum Geschäftsvertrauen Winter 2021

This is the twenty-first quarterly eDiscovery Business Confidence Survey conducted by...

High Five? Ein aggregierter Überblick über fünf halbjährliche eDiscovery-Preisumfragen

As we are in the midst of a pandemic that has...