Midagi puudu? Teema modelleerimine e-juurdlus

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Toimetaja märkus: E-juurdluse autori, kaastöölise ja kõnelejana on Herbert Roitblat tehnoloogiaettevõtja, leiutaja ja ekspert, kes ei vaja e-juurdluse ökosüsteemi tõsiste spetsialistide sissejuhatust. Praegu on Mimecasti peamine andmete teadlane, ta on tunnustatud ekspert valdkondades alates kognitiivse teaduse ja teabe otsimise e-juurdluse ja masinõppe. viljakas teadlane ja autor, tema hiljuti avaldatud raamatu uuring aktuaalne modelleerimine e-Discovery juhib tähelepanu otsinguprotsessi õigusliku avastus ja rõhutab, et arvuti abil otsingu protsess ei ole mitte ainult mõistlik, kuid see on ka täielik, kui mõõdetakse teemasid. See paber, mis on jagatud loal, on ette nähtud teie tasu eest.

Kas mul on midagi puudu? Teema modelleerimine e-juurdlus

Autor Herbert Roitblat, Ph.D.

Abstraktne

Õigusliku e-juurdluse puhul peavad pooled otsima oma elektrooniliselt salvestatud teabe kaudu, et leida konkreetsel juhul asjakohaseid dokumente. Läbirääkimised nende otsingute ulatuse üle põhinevad sageli hirmul, et midagi jääb vahele. Käesolev dokument jätkab argumenti, et avastus peaks põhinema asjaolude kindlakstegemisel juhtumi. Kui otsinguprotsess on väiksem kui täielik (kui selle tagasivõtmine on alla 100%), võib see siiski olla täielik kõigi asjakohaste saadaolevate teemade esitamisel. Selles uuringus kasutati latentset Dirichlet jaotust 100 teemat kõigist teadaolevatest asjakohastest dokumentidest. Dokumendid olid siis liigitatud umbes 80% tagasivõtmine (st 80% vastavatest dokumentidest leiti kategoriseerija poolt määratud hitt komplekt ja 20% jäeti vahele, määratud vastamata komplekt). Vaatamata asjaolule, et kategoriseerija tuvastas vähem kui kõik asjakohased dokumendid, sisaldas tuvastatud dokumendid kõiki dokumentide komplektist tuletatud teemasid. Sama muster leidis, kas kategoriseerija oli naiivne Bayesi kategoriseerija, kes on koolitatud juhuslikul valikul dokumente või pideva aktiivse õppega koolitatud Support Vector Machine (mis keskendub hindamisele kõige tõenäolisematele asjakohastele dokumentidele). Kummaski kategoriseerija vastamata hulgas ei tuvastatud ühtegi teemat, mida hittkomplektis juba ei näinud. Arvutipõhine otsinguprotsess ei ole mitte ainult mõistlik (nagu on nõutud tsiviilkohtumenetluse föderaalreeglitega), see on ka teemade abil mõõdetud täielik.

Täieliku dokumendi (PDF) läbivaatamine

Teema modelleerimine e-juurdlus — Herbert Roitblat Ph.D

Loe originaalpaberit läbi ArXIV® (Cornelli Ülikool)

Täiendav lugemine

Kas see kõik on suhteline? Ennustavate kodeerimistehnoloogiate ja protokollide uuring — 2020. aasta kevad tulemused

Platvormidest töövoogudesse: ennustavad kodeerimistehnoloogiad ja protokollide uuring - Sügis 2019 tulemused

Allikas: ComplexDiscovery

e-juurdluse ühinemised, ülevõtmised ja investeeringud 2020. aastal

Since beginning to track the number of publicly highlighted merger, acquisition,...

Relatiivsus omandab VerQu

According to Relativity CEO Mike Gamson, "It's imperative that the legal...

E-juurdluse ühinemised, ülevõtmised ja investeeringud 2020. aasta kvartalis

From Nuix and DISCO to Exterro and AccessData, the following findings,...

DISCO sulgeb rahastamisvooru $100 miljonit

According to DISCO CEO Kiwi Camara, “Legaltech is booming now, and...

Uus ajastu e-juurdluse? Turukasvu raamimine kuue ajastute objektiivi kaudu

There are many excellent resources for considering chronological and historiographical approaches...

E-juurdluse turu suurus Mashup: 2020-2025 ülemaailmne tarkvara ja teenuste ülevaade

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Lähtestamine lähtestamine? e-juurdluse turu suuruse kohandused aastaks 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Kodu või eemal? e-juurdluse kollektsiooni turu suuruse ja hinnakujunduse kaalutlused

One of the key home (onsite) or away (remote) decisions that...

Viis suurt lugemist e-juurdluse kohta jaanuar 2021

From eDiscovery business confidence and operational metrics to merger and acquisition...

Viis suurt lugemist e-juurdluse kohta detsember 2020

May the peace and joy of the holiday season be with...

Viis suurt lugemist e-juurdluse kohta november 2020

From market sizing and cyber law to industry investments and customer...

Viis suurt lugemist e-juurdluse kohta oktoober 2020

From business confidence and captive ALSPs to digital republics and mass...

Ainult aja küsimus? HayStacKid käivitab uue teenuse andmete rikkumise avastamise ja läbivaatamise

According to HaystackID's Chief Innovation Officer and President of Global Investigations,...

See on Match! Keskendudes e-juurdluse ülevaate kogumaksumusele ReviewRight Match

As a leader in remote legal document review, HaystackID provides clients...

Proaktiivsest tuvastamisest kuni andmerikkumise ülevaated: tundlike andmete avastamine ja kaevandamine koos Acema

A steady rise in the number of sensitive data discovery requirements...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Ei ole nii silmapaistev? e-juurdluse operatiivmõõdikud 2021. aasta talvel

In the winter of 2021, eDiscovery Business Confidence Survey more...

Talv 2021 e-juurdluse ettevõtete usalduse uuringu tulemused

This is the twenty-first quarterly eDiscovery Business Confidence Survey conducted by...

Kõrge viie? Viiest poolaastast e-juurdluse hinnaanalüüsi koondülevaade

As we are in the midst of a pandemic that has...

Asjakohasuse ja reaalsuse tasakaalustamine? Talv 2021 e-juurdluse hinnakujunduse tulemused

Based on the complexity of data and legal discovery, it is...