Midagi puudu? Teema modelleerimine e-juurdlus

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Toimetaja märkus: E-juurdluse autori, kaastöölise ja kõnelejana on Herbert Roitblat tehnoloogiaettevõtja, leiutaja ja ekspert, kes ei vaja e-juurdluse ökosüsteemi tõsiste spetsialistide sissejuhatust. Praegu on Mimecasti peamine andmete teadlane, ta on tunnustatud ekspert valdkondades alates kognitiivse teaduse ja teabe otsimise e-juurdluse ja masinõppe. viljakas teadlane ja autor, tema hiljuti avaldatud raamatu uuring aktuaalne modelleerimine e-Discovery juhib tähelepanu otsinguprotsessi õigusliku avastus ja rõhutab, et arvuti abil otsingu protsess ei ole mitte ainult mõistlik, kuid see on ka täielik, kui mõõdetakse teemasid. See paber, mis on jagatud loal, on ette nähtud teie tasu eest.

Kas mul on midagi puudu? Teema modelleerimine e-juurdlus

Autor Herbert Roitblat, Ph.D.

Abstraktne

Õigusliku e-juurdluse puhul peavad pooled otsima oma elektrooniliselt salvestatud teabe kaudu, et leida konkreetsel juhul asjakohaseid dokumente. Läbirääkimised nende otsingute ulatuse üle põhinevad sageli hirmul, et midagi jääb vahele. Käesolev dokument jätkab argumenti, et avastus peaks põhinema asjaolude kindlakstegemisel juhtumi. Kui otsinguprotsess on väiksem kui täielik (kui selle tagasivõtmine on alla 100%), võib see siiski olla täielik kõigi asjakohaste saadaolevate teemade esitamisel. Selles uuringus kasutati latentset Dirichlet jaotust 100 teemat kõigist teadaolevatest asjakohastest dokumentidest. Dokumendid olid siis liigitatud umbes 80% tagasivõtmine (st 80% vastavatest dokumentidest leiti kategoriseerija poolt määratud hitt komplekt ja 20% jäeti vahele, määratud vastamata komplekt). Vaatamata asjaolule, et kategoriseerija tuvastas vähem kui kõik asjakohased dokumendid, sisaldas tuvastatud dokumendid kõiki dokumentide komplektist tuletatud teemasid. Sama muster leidis, kas kategoriseerija oli naiivne Bayesi kategoriseerija, kes on koolitatud juhuslikul valikul dokumente või pideva aktiivse õppega koolitatud Support Vector Machine (mis keskendub hindamisele kõige tõenäolisematele asjakohastele dokumentidele). Kummaski kategoriseerija vastamata hulgas ei tuvastatud ühtegi teemat, mida hittkomplektis juba ei näinud. Arvutipõhine otsinguprotsess ei ole mitte ainult mõistlik (nagu on nõutud tsiviilkohtumenetluse föderaalreeglitega), see on ka teemade abil mõõdetud täielik.

Täieliku dokumendi (PDF) läbivaatamine

Teema modelleerimine e-juurdlus — Herbert Roitblat Ph.D

Loe originaalpaberit läbi ArXIV® (Cornelli Ülikool)

Täiendav lugemine

Kas see kõik on suhteline? Ennustavate kodeerimistehnoloogiate ja protokollide uuring — 2020. aasta kevad tulemused

Platvormidest töövoogudesse: ennustavad kodeerimistehnoloogiad ja protokollide uuring - Sügis 2019 tulemused

Allikas: ComplexDiscovery

Lähtestamine lähtestamine? e-juurdluse turu suuruse kohandused aastaks 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Uus NIST-st: küberturvalisuse ja ettevõtete riskijuhtimise integreerimine (ERM)

NIST has released NISTIR 8286, Integrating Cybersecurity and Enterprise Risk Management...

Pilves Allianss? Järgmise põlvkonna pilv Euroopa jaoks

According to Thierry Breton, Commissioner for the Internal Market, "Europe needs...

Viis suurt lugemist e-juurdluse kohta oktoober 2020

From business confidence and captive ALSPs to digital republics and mass...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

E-avalikustamise süsteemide ostjate juhend — 2020 väljaanne (Andrew Haslam)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

Võidujooks stardijoone juurde? Hiljutised turvalise kaugülevaate teadaanded

Not all secure remote review offerings are equal as the apparent...

Kaug-e-juurdluse lubamine? DAA-de hetktõmmis

Desktop as a Service (DaaS) providers are becoming important contributors to...

Lähtestamine lähtestamine? e-juurdluse turu suuruse kohandused aastaks 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Kodu või eemal? e-juurdluse kollektsiooni turu suuruse ja hinnakujunduse kaalutlused

One of the key home (onsite) or away (remote) decisions that...

Muudatused ja otsused? Uued kaalutlused e-juurdluse turvalise kaugülevaate kohta

One of the key revision and decision areas that business, legal,...

A Macro Look at Past and Projected eDiscovery Market Size from 2012 to 2024

From a macro look at past estimations of eDiscovery market size...

Muutuste hooaeg? Kaheksateist tähelepanekut e-juurdluse ettevõtete usalduse kohta 2020. aasta sügisel

In the fall of 2020, 77.2% of eDiscovery Business Confidence Survey...

Jätkuv eelarvepiirangute juhtum e-juurdluse äris

In the fall of 2020, 49.4% of respondents viewed budgetary constraints...

Tasumata kontod? E-juurdluse operatiivmõõdikud 2020. aasta sügisel

In the fall of 2020, eDiscovery Business Confidence Survey more...

Hoidke rooli? 2020. aasta sügisel e-juurdluse äriusalduse uuringu tulemused

This is the twentieth quarterly eDiscovery Business Confidence Survey conducted by...

DISCO tõstab $60 miljonit

According to the media release, DISCO will use this investment to...

Rampiva ja RYABI kontserni ühinemine

According to today's announcement, the RYABI Group merger is Rampiva's first...

E-juurdluse ühinemised, ülevõtmised ja investeeringud 2020. aasta kvartalis

From HaystackID and NightOwl Global to Reveal Data and NexLP, the...

Mitratech omandab teravuse ELM

According to Mike Williams, CEO of Mitratech, “We came to the...

Viis suurt lugemist e-juurdluse kohta oktoober 2020

From business confidence and captive ALSPs to digital republics and mass...

Viis suurt lugemist e-juurdluse kohta septembris 2020

From cloud forensics and cyber defense to social media and surveys,...

Viis suurt loendit e-juurdluse kohta augustis 2020

From predictive coding and artificial intelligence to antitrust investigations and malware,...

Viis suurt loeb e-juurdluse juuliks 2020

From business confidence and operational metrics to data protection and privacy...