Mist je iets? Onderwerpmodellering in eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Opmerking van de redactie: Als auteur, medewerker en spreker op eDiscovery is Herbert Roitblat een technologie-ondernemer, uitvinder en expert die geen introductie nodig heeft tot serieuze professionals in het eDiscovery ecosysteem. Momenteel is hij werkzaam als Principal Data Scientist bij Mimecast en is hij een erkende expert op het gebied van cognitieve wetenschap en het ophalen van informatie tot eDiscovery en machine learning. Een productief onderzoeker en auteur, zijn onlangs gepubliceerde paper over de studie van actuele modellering in eDiscovery vestigt de aandacht op het zoekproces in juridische ontdekkingen en benadrukt dat een computerondersteund zoekproces niet alleen redelijk is, maar het is ook compleet wanneer gemeten door onderwerpen. Dit document, gedeeld met toestemming, wordt ter overweging verstrekt.

Is er iets dat ik mis? Onderwerpmodellering in eDiscovery

Door Herbert Roitblat, Ph.D.

Abstract

In juridische eDiscovery moeten partijen hun elektronisch opgeslagen informatie doorzoeken om documenten te vinden die relevant zijn voor een specifiek geval. Onderhandelingen over de reikwijdte van deze zoekopdrachten zijn vaak gebaseerd op de angst dat er iets gemist zal worden. Dit artikel blijft een argument dat de ontdekking gebaseerd moet zijn op het identificeren van de feiten van een zaak. Als een zoekproces minder dan voltooid is (als het Recall minder dan 100% heeft), kan het nog steeds compleet zijn met het presenteren van alle relevante beschikbare onderwerpen. In deze studie werd Latent Dirichlet Allocation gebruikt om 100 onderwerpen uit alle bekende relevante documenten te identificeren. De documenten werden vervolgens gecategoriseerd naar ongeveer 80% Recall (d.w.z. 80% van de relevante documenten werden gevonden door de categorizer, de treffersset aangewezen en 20% werd gemist, de gemiste set aangeduid). Ondanks het feit dat minder dan alle relevante documenten werden geïdentificeerd door de categorizer, bevatte de documenten die werden geïdentificeerd alle onderwerpen die zijn afgeleid van de volledige set documenten. Dit zelfde patroon hield in of de categorizer een naïeve Bayes-categorizer was die is getraind op een willekeurige selectie van documenten of een ondersteuningsvectormachine die is getraind met Continuous Active Learning (die de evaluatie richt op de meest waarschijnlijke documenten). Er zijn geen onderwerpen geïdentificeerd in de gemiste set van de categorizer die nog niet in de hitset waren gezien. Niet alleen is een computerondersteund zoekproces redelijk (zoals vereist door het federale reglement van burgerlijke rechtsvordering), het is ook voltooid wanneer gemeten naar onderwerpen.

Bekijk het volledige document (pdf)

Onderwerp modellering in eDiscovery — Herbert Roitblat Ph.D

Lees de originele paper via ArXIV® (Cornell University)

Aanvullend lezen

Is het allemaal relatief? Onderzoek naar voorspellende coderingstechnologieën en protocollen - Resultaten voorjaar 2020

Van platforms tot workflows: Onderzoek naar voorspellende coderingstechnologieën en protocollen - Herfst 2019 Resultaten

Bron: ComplexDiscovery

From Proactive Detection to Data Breach Reviews: Sensitive Data Discovery and Extraction with Ascema

A steady rise in the number of sensitive data discovery requirements...

De basislijn resetten? EDiscovery Marktgrootte aanpassingen voor 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Nieuw van NIST: Cybersecurity en Enterprise Risk Management (ERM) integreren

NIST has released NISTIR 8286, Integrating Cybersecurity and Enterprise Risk Management...

Een bewolkte Alliantie? Een cloud van de volgende generatie voor Europa

According to Thierry Breton, Commissioner for the Internal Market, "Europe needs...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

De handleiding voor kopers van eDisclosure Systems — editie 2020 (Andrew Haslam)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

De race naar de startlijn? Recente aankondigingen voor veilige externe beoordeling

Not all secure remote review offerings are equal as the apparent...

Remote eDiscovery inschakelen? Een momentopname van DaaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

De basislijn resetten? EDiscovery Marktgrootte aanpassingen voor 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Thuis of weg? eDiscovery Collection Market Overwegingen voor afmetingen en prijzen

One of the key home (onsite) or away (remote) decisions that...

Herzieningen en besluiten? Nieuwe overwegingen voor eDiscovery Secure Remote Reviews

One of the key revision and decision areas that business, legal,...

Een macro blik op het verleden en de verwachte eDiscovery Marktgrootte van 2012 tot 2024

From a macro look at past estimations of eDiscovery market size...

Een seizoen van verandering? Achttien observaties over eDiscovery Bedrijfsvertrouwen in de herfst van 2020

In the fall of 2020, 77.2% of eDiscovery Business Confidence Survey...

Het voortdurende geval van budgettaire beperkingen in de activiteiten van eDiscovery

In the fall of 2020, 49.4% of respondents viewed budgetary constraints...

Uitstaande rekeningen? Operationele statistieken van eDiscovery in de herfst van 2020

In the fall of 2020, eDiscovery Business Confidence Survey more...

Het Roer vasthouden? Resultaten van eDiscovery Business Confidence Survey

This is the twentieth quarterly eDiscovery Business Confidence Survey conducted by...

DISCO verhoogt 60 miljoen dollar

According to the media release, DISCO will use this investment to...

Rampiva en de RYABI-groep samenvoegen

According to today's announcement, the RYABI Group merger is Rampiva's first...

eDiscovery Fusies, Overnames en Investeringen in Q3 2020

From HaystackID and NightOwl Global to Reveal Data and NexLP, the...

Mitratech verwerft scherpte ELM

According to Mike Williams, CEO of Mitratech, “We came to the...

Vijf geweldige lezingen op eDiscovery voor oktober 2020

From business confidence and captive ALSPs to digital republics and mass...

Vijf geweldige lezingen op eDiscovery voor september 2020

From cloud forensics and cyber defense to social media and surveys,...

Vijf geweldige leesboeken op eDiscovery voor augustus 2020

From predictive coding and artificial intelligence to antitrust investigations and malware,...

Vijf grote lezingen over eDiscovery voor juli 2020

From business confidence and operational metrics to data protection and privacy...