Mist je iets? Onderwerpmodellering in eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Opmerking van de redactie: Als auteur, medewerker en spreker op eDiscovery is Herbert Roitblat een technologie-ondernemer, uitvinder en expert die geen introductie nodig heeft tot serieuze professionals in het eDiscovery ecosysteem. Momenteel is hij werkzaam als Principal Data Scientist bij Mimecast en is hij een erkende expert op het gebied van cognitieve wetenschap en het ophalen van informatie tot eDiscovery en machine learning. Een productief onderzoeker en auteur, zijn onlangs gepubliceerde paper over de studie van actuele modellering in eDiscovery vestigt de aandacht op het zoekproces in juridische ontdekkingen en benadrukt dat een computerondersteund zoekproces niet alleen redelijk is, maar het is ook compleet wanneer gemeten door onderwerpen. Dit document, gedeeld met toestemming, wordt ter overweging verstrekt.

Is er iets dat ik mis? Onderwerpmodellering in eDiscovery

Door Herbert Roitblat, Ph.D.

Abstract

In juridische eDiscovery moeten partijen hun elektronisch opgeslagen informatie doorzoeken om documenten te vinden die relevant zijn voor een specifiek geval. Onderhandelingen over de reikwijdte van deze zoekopdrachten zijn vaak gebaseerd op de angst dat er iets gemist zal worden. Dit artikel blijft een argument dat de ontdekking gebaseerd moet zijn op het identificeren van de feiten van een zaak. Als een zoekproces minder dan voltooid is (als het Recall minder dan 100% heeft), kan het nog steeds compleet zijn met het presenteren van alle relevante beschikbare onderwerpen. In deze studie werd Latent Dirichlet Allocation gebruikt om 100 onderwerpen uit alle bekende relevante documenten te identificeren. De documenten werden vervolgens gecategoriseerd naar ongeveer 80% Recall (d.w.z. 80% van de relevante documenten werden gevonden door de categorizer, de treffersset aangewezen en 20% werd gemist, de gemiste set aangeduid). Ondanks het feit dat minder dan alle relevante documenten werden geïdentificeerd door de categorizer, bevatte de documenten die werden geïdentificeerd alle onderwerpen die zijn afgeleid van de volledige set documenten. Dit zelfde patroon hield in of de categorizer een naïeve Bayes-categorizer was die is getraind op een willekeurige selectie van documenten of een ondersteuningsvectormachine die is getraind met Continuous Active Learning (die de evaluatie richt op de meest waarschijnlijke documenten). Er zijn geen onderwerpen geïdentificeerd in de gemiste set van de categorizer die nog niet in de hitset waren gezien. Niet alleen is een computerondersteund zoekproces redelijk (zoals vereist door het federale reglement van burgerlijke rechtsvordering), het is ook voltooid wanneer gemeten naar onderwerpen.

Bekijk het volledige document (pdf)

Onderwerp modellering in eDiscovery — Herbert Roitblat Ph.D

Lees de originele paper via ArXIV® (Cornell University)

Aanvullend lezen

Is het allemaal relatief? Onderzoek naar voorspellende coderingstechnologieën en protocollen - Resultaten voorjaar 2020

Van platforms tot workflows: Onderzoek naar voorspellende coderingstechnologieën en protocollen - Herfst 2019 Resultaten

Bron: ComplexDiscovery

eDiscovery Fusies, Overnames en Investeringen in 2020

Since beginning to track the number of publicly highlighted merger, acquisition,...

Relativiteit verwerft VerQu

According to Relativity CEO Mike Gamson, "It's imperative that the legal...

eDiscovery Fusies, overnames en investeringen in Q4 2020

From Nuix and DISCO to Exterro and AccessData, the following findings,...

DISCO sluit financieringsronde van $100 miljoen af

According to DISCO CEO Kiwi Camara, “Legaltech is booming now, and...

A New Era in eDiscovery? Framing Market Growth Through the Lens of Six Eras

There are many excellent resources for considering chronological and historiographical approaches...

Een eDiscovery Market Size Mashup: 2020-2025 Wereldwijd overzicht van software en services

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

De basislijn resetten? EDiscovery Marktgrootte aanpassingen voor 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Thuis of weg? eDiscovery Collection Market Overwegingen voor afmetingen en prijzen

One of the key home (onsite) or away (remote) decisions that...

Vijf geweldige lezingen op eDiscovery voor januari 2021

From eDiscovery business confidence and operational metrics to merger and acquisition...

Vijf geweldige lezingen op eDiscovery voor december 2020

May the peace and joy of the holiday season be with...

Vijf geweldige lezingen op eDiscovery voor november 2020

From market sizing and cyber law to industry investments and customer...

Vijf geweldige lezingen op eDiscovery voor oktober 2020

From business confidence and captive ALSPs to digital republics and mass...

Slechts een kwestie van tijd? HayStackID lanceert nieuwe service voor detectie en beoordeling van datalekken

According to HaystackID's Chief Innovation Officer and President of Global Investigations,...

Het is een Match! Focus op de totale kosten van eDiscovery Review met ReviewRight Match

As a leader in remote legal document review, HaystackID provides clients...

From Proactive Detection to Data Breach Reviews: Sensitive Data Discovery and Extraction with Ascema

A steady rise in the number of sensitive data discovery requirements...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Niet zo uitmuntend? Operationele statistieken van eDiscovery in de winter van 2021

In the winter of 2021, eDiscovery Business Confidence Survey more...

Winter 2021 Resultaten van eDiscovery Business Confidence

This is the twenty-first quarterly eDiscovery Business Confidence Survey conducted by...

High Five? Een samengevoegd overzicht van vijf halfjaarlijkse eDiscovery Pricing Enquêtes

As we are in the midst of a pandemic that has...

Relevantie en realiteit in evenwicht brengen? Resultaten eDiscovery Prijzen Survey Winter 2021

Based on the complexity of data and legal discovery, it is...