Puuttuuko jotain? Aiheen mallinnus eDiscoveryssa

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Toimittajan huomautus: Ediscoveryn kirjoittajana, rahoittajana ja puhujana Herbert Roitblat on teknologiayrittäjä, keksijä ja asiantuntija, joka ei tarvitse esitellä eDiscovery-ekosysteemin vakavia ammattilaisia. Tällä hetkellä hän toimii Mimecastin päätietotieteilijänä ja on tunnustettu asiantuntija aloilla, jotka ulottuvat kognitiivisesta tieteestä ja tiedonhausta eDiscoveryyn ja koneoppimiseen. Tuottelias tutkija ja kirjailija, hänen äskettäin julkaistu paperi tutkimus ajankohtainen mallinnus eDiscovery kiinnittää huomiota hakuprosessin oikeudellisen löytämisen ja korostaa, että tietokoneavusteinen hakuprosessi ei ole vain kohtuullinen, mutta se on myös täydellinen, kun mitataan aiheita. Tämä paperi, joka on jaettu luvalla, on tarkoitettu harkintaasi varten.

Onko jotain, mitä minulta puuttuu? Aiheen mallinnus eDiscoveryssa

Kirjoittaja Herbert Roitblat, Ph.D.

Tiivistelmä

Oikeudellisessa eDiscovery-järjestelmässä osapuolten on etsittävä sähköisesti tallennettuja tietojaan löytääkseen tietyn tapauksen kannalta merkityksellisiä asiakirjoja. Neuvottelut näiden hakujen laajuudesta perustuvat usein pelkoon, että jotain jää väliin. Tämä paperi jatkaa väitettä, että löydön tulisi perustua asian tosiasioiden tunnistamiseen. Jos hakuprosessi on pienempi kuin valmis (jos se on Recall alle 100%), se voi silti olla täydellinen kaikkien asiaankuuluvien käytettävissä olevien aiheiden esittämisessä. Tässä tutkimuksessa Latent Dirichlet Aallokointia käytettiin 100 aiheen tunnistamiseen kaikista tunnetuista asiaankuuluvista asiakirjoista. Asiakirjat luokiteltiin sitten noin 80% Recall (eli 80% asiaankuuluvista asiakirjoista löytyi kategorizer, nimettiin osuma sarja ja 20% jäi, nimetty jäänyt sarja). Huolimatta siitä, että luokitteleja tunnisti vähemmän kuin kaikki asiaankuuluvat asiakirjat, yksilöidyt asiakirjat sisälsivät kaikki aihealueet, jotka on johdettu täydellisistä asiakirjoista. Tämä sama kuvio pidettiin, oliko luokittelija naiivi Bayes-luokittelija koulutettu satunnainen valikoima asiakirjoja tai Support Vector Machine koulutettu Continuous Active Learning (jossa keskitytään arviointi todennäköisimpi-to-be-asiaankuuluviin asiakirjoihin). Kummankaan kategorisaattorin vastaamatta jääneestä joukosta ei tunnistettu aiheita, joita ei jo näkynyt hittijoukossa. Paitsi että tietokoneavusteinen hakuprosessi on kohtuullinen (kuten liittovaltion siviiliprosessilain säännöissä vaaditaan), se on myös täydellinen, kun se mitataan aiheilla.

Täydellisen paperin (PDF) tarkistaminen

Aiheen mallinnus eDiscovery — Herbert Roitblat Ph.D

Lue alkuperäinen paperi ARXIV® (Cornellin yliopisto) kautta

Ylimääräinen lukeminen

Onko kaikki suhteellista? Predictive Cooding Technologies and Protocols Survey - Kevään 2020 tulokset

Alustoista työnkulkuihin: ennustavat koodausteknologiat ja protokollat Survey - Syksyn 2019 tulokset

Lähde: ComplexDiscovery

eDiscoveryn sulautumat, yritysostot ja investoinnit vuonna 2020

Since beginning to track the number of publicly highlighted merger, acquisition,...

Suhteellisuusteoria hankkii VerQU

According to Relativity CEO Mike Gamson, "It's imperative that the legal...

eDiscovery-yrityskeskittymät, yritysostot ja sijoitukset Q4 2020 -hankkeeseen

From Nuix and DISCO to Exterro and AccessData, the following findings,...

DISCO sulkee 100 miljoonan dollarin rahoituskierroksen

According to DISCO CEO Kiwi Camara, “Legaltech is booming now, and...

Uusi aikakausi eDiscoveryssa? Kehystys markkinoiden kasvu kuuden aikakausien linssin läpi

There are many excellent resources for considering chronological and historiographical approaches...

An eDiscovery Market Koko Mashup: 2020-2025 Maailmanlaajuiset ohjelmistot ja palvelut Yleiskatsaus

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Perusviivan nollaaminen? eDiscoveryn markkinakoon mukautukset vuodelle 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Kotiin vai pois? eDiscovery Malliston markkinoiden mitoitukseen ja hinnoitteluun liittyvät näkökohdat

One of the key home (onsite) or away (remote) decisions that...

Viisi suurta lukee eDiscovery tammikuu 2021

From eDiscovery business confidence and operational metrics to merger and acquisition...

Viisi suurta lukua eDiscovery joulukuu 2020

May the peace and joy of the holiday season be with...

Viisi suurta lukua eDiscoveryssa marraskuulle 2020

From market sizing and cyber law to industry investments and customer...

Viisi suurta lukee eDiscovery lokakuussa 2020

From business confidence and captive ALSPs to digital republics and mass...

Vain ajan kysymys? HaysTackid käynnistää uuden palvelun tietomurtojen etsimistä ja tarkastelua varten

According to HaystackID's Chief Innovation Officer and President of Global Investigations,...

Se on Match! Keskittyminen eDiscovery-tarkastelun kokonaiskustannuksiin ja tarkistusoikeus Match

As a leader in remote legal document review, HaystackID provides clients...

Ennakoivasta havaitsemisesta tietomurron arviointeihin: arkaluonteisten tietojen etsiminen ja poistaminen Asceman avulla

A steady rise in the number of sensitive data discovery requirements...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Ei niin erinomainen? eDiscoveryn operatiiviset mittarit talvella 2021

In the winter of 2021, eDiscovery Business Confidence Survey more...

Winter 2021 eDiscovery Business Luottamuskyselyn tulokset

This is the twenty-first quarterly eDiscovery Business Confidence Survey conducted by...

Yläviisikko? Yhteenlaskettu yleiskatsaus viiteen puolivuotiseen eDiscovery-hinnoittelututkimukseen

As we are in the midst of a pandemic that has...

Tasapainotus relevanssi ja todellisuus? Winter 2021 eDiscovery Hinnoittelukyselyn tulokset

Based on the complexity of data and legal discovery, it is...