Anmerkung des Herausgebers: Als Autor, Mitwirkender und Redner auf eDiscovery ist Herbert Roitblat Technologie-Unternehmer, Erfinder und Experte, der keine Einführung in ernsthafte Fachleute im eDiscovery-Ökosystem braucht. Derzeit arbeitet er als Principal Data Scientist bei Mimecast und ist ein anerkannter Experte in den Bereichen Kognitionswissenschaft und Informationsabruf bis hin zu eDiscovery und maschinellem Lernen. Ein produktiver Forscher und Autor, sein kürzlich veröffentlichtes Papier über die Studie der aktuellen Modellierung in eDiscovery lenkt die Aufmerksamkeit auf den Suchprozess in der rechtlichen Entdeckung und hebt hervor, dass ein computergestützter Suchprozess nicht nur sinnvoll ist, sondern auch vollständig ist, wenn er nach Themen gemessen wird. Dieses Papier, das mit Erlaubnis geteilt wird, ist für Ihre Prüfung zur Verfügung gestellt.
Gibt es etwas, das mir fehlt? Themen-Modellierung in eDiscovery
Von Herbert Roitblat, Ph.D.
Abstrakt
In der rechtlichen eDiscovery sind die Parteien verpflichtet, ihre elektronisch gespeicherten Informationen zu durchsuchen, um Dokumente zu finden, die für einen bestimmten Fall relevant sind. Die Verhandlungen über den Umfang dieser Recherchen beruhen oft auf der Angst, dass etwas übersehen wird. Dieses Papier setzt ein Argument fort, dass die Entdeckung auf der Identifizierung der Fakten eines Falles beruhen sollte. Wenn ein Suchvorgang weniger als abgeschlossen ist (wenn er Rückruf weniger als 100% hat), kann er dennoch abgeschlossen sein, wenn alle relevanten verfügbaren Themen präsentiert werden. In dieser Studie wurde Latent Dirichlet Allocation verwendet, um 100 Themen aus allen bekannten relevanten Dokumenten zu identifizieren. Die Dokumente wurden dann zu etwa 80% Rückruf kategorisiert (d.h. 80% der relevanten Dokumente wurden vom Kategorisierer gefunden, der Treffersatz bezeichnet und 20% wurden verpasst, bezeichnet den verpassten Satz). Trotz der Tatsache, dass weniger als alle relevanten Dokumente vom Kategorisierer identifiziert wurden, enthielten die identifizierten Dokumente alle Themen, die aus dem vollständigen Satz von Dokumenten abgeleitet wurden. Dasselbe Muster hielt fest, ob der Kategorizer ein naiver Bayes-Kategorisierer war, der auf einer zufälligen Auswahl von Dokumenten trainiert wurde, oder eine Support-Vektor-Maschine, die mit Continuous Active Learning trainiert wurde (wobei die Bewertung auf die am ehesten wahrscheinlichen relevanten Dokumente konzentriert wird). In den verpassten Kategorien wurden keine Themen identifiziert, die nicht bereits im Treffersatz zu sehen waren. Ein computergestützter Suchprozess ist nicht nur sinnvoll (wie es in der Bundesordnung des Zivilprozessrechts vorgeschrieben ist), sondern auch bei der Messung nach Themen abgeschlossen.
Lesen Sie das komplette Papier (PDF)
Thema Modellierung in eDiscovery — Herbert Roitblat Ph.D.
Lesen Sie das Originalpapier über ArXiv® (Cornell University)
Zusätzliche Lesung
Ist alles relativ? Umfrage zu Predictive Coding Technologies und Protokolle - Ergebnisse Frühjahr 2020
Von Plattformen zu Workflows: Predictive Coding Technologies und Protokolle Umfrage - Ergebnisse Herbst 2019
Quelle: ComplexDiscovery