Il manque quelque chose ? Modélisation des rubriques dans eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Note de l'éditeur : En tant qu'auteur, contributeur et conférencier sur eDiscovery, Herbert Roitblat est un entrepreneur en technologie, inventeur et expert qui n'a pas besoin de se familiariser avec les professionnels sérieux de l'écosystème eDiscovery. Actuellement chercheur principal des données chez Mimecast, il est un expert reconnu dans des domaines allant de la science cognitive à la récupération d'information à la découverte électronique et à l'apprentissage automatique. Chercheur et auteur prolifique, son article récemment publié sur l'étude de la modélisation topique dans eDiscovery attire l'attention sur le processus de recherche dans la découverte juridique et souligne qu'un processus de recherche assistée par ordinateur est non seulement raisonnable, mais aussi complet lorsqu'il est mesuré par sujets. Ce document, partagé avec permission, vous est fourni pour examen.

Il me manque quelque chose ? Modélisation des rubriques dans eDiscovery

Par Herbert Roitblat, Ph.D.

Abstrait

Dans le cadre de la découverte électronique juridique, les parties sont tenues de rechercher dans leurs informations stockées électroniquement pour trouver des documents pertinents à un cas particulier. Les négociations sur la portée de ces recherches sont souvent fondées sur la crainte que quelque chose ne soit pas manqué. Le présent document poursuit l'argument selon lequel l'interrogatoire préalable doit reposer sur l'identification des faits d'une affaire. Si un processus de recherche est inférieur à 100 % (si le processus de recherche est inférieur à 100 %), il peut tout de même être complet pour présenter tous les sujets pertinents disponibles. Dans cette étude, l'allocation de dirichlet latente a été utilisée pour identifier 100 sujets de tous les documents pertinents connus. Les documents ont ensuite été classés à environ 80 % Rappel (c'est-à-dire que 80 % des documents pertinents ont été trouvés par le catégoriseur, désigné l'ensemble de succès et 20 % ont été manqués, désignés l'ensemble manqué). Bien que le catégoriseur ait identifié moins que tous les documents pertinents, les documents qui ont été identifiés contenaient tous les sujets tirés de l'ensemble complet des documents. Ce même modèle consistait à déterminer si le catégoriseur était un catégoriseur de Bayes naïf formé sur une sélection aléatoire de documents ou une machine vectorielle de soutien formée avec l'apprentissage actif continu (qui concentre l'évaluation sur les documents les plus susceptibles d'être pertinents). Aucun sujet n'a été identifié dans l'ensemble manqué de l'un ou l'autre des catégories qui n'ont pas été vus dans l'ensemble de succès. Non seulement un processus de recherche assistée par ordinateur est raisonnable (comme l'exigent les Règles fédérales de procédure civile), mais il est également complet lorsqu'il est mesuré par sujets.

Consulter le document complet (PDF)

Modélisation des sujets dans eDiscovery — Herbert Roitblat Ph.D.

Lire l'article original via ARXiv® (Université Cornell)

Lecture supplémentaire

Est-ce que c'est relatif ? Enquête sur les technologies et protocoles de codage prédictif - Résultats du printemps 2020

Des plates-formes aux flux de travail : Enquête sur les technologies et protocoles de codage prédictif - Résultats de l'automne 2019

Source : ComplexDiscovery

Fusions, acquisitions et investissements de découverte électronique en 2020

Since beginning to track the number of publicly highlighted merger, acquisition,...

La relativité acquiert VerQu

According to Relativity CEO Mike Gamson, "It's imperative that the legal...

Fusions, acquisitions et investissements eDiscovery au quatrième trimestre 2020

From Nuix and DISCO to Exterro and AccessData, the following findings,...

DISCO clôt un cycle de financement de 100 millions de dollars

According to DISCO CEO Kiwi Camara, “Legaltech is booming now, and...

Une nouvelle ère dans l'e-Discovery ? Encadrer la croissance du marché à travers l'objectif de six époques

There are many excellent resources for considering chronological and historiographical approaches...

Un mashup de taille de marché électronique : 2020-2025 Présentation mondiale des logiciels et des services

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Réinitialiser la ligne de base ? Ajustements de taille de marché eDiscovery pour 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

À la maison ou à l'extérieur ? Considérations relatives à la taille du marché et à la tarification des collections eDis

One of the key home (onsite) or away (remote) decisions that...

Cinq grandes lectures sur eDiscovery pour janvier 2021

From eDiscovery business confidence and operational metrics to merger and acquisition...

Cinq excellentes lectures sur eDiscovery pour décembre 2020

May the peace and joy of the holiday season be with...

Cinq grandes lectures sur eDiscovery pour novembre 2020

From market sizing and cyber law to industry investments and customer...

Cinq grandes lectures sur la découverte électronique pour octobre 2020

From business confidence and captive ALSPs to digital republics and mass...

Seulement une question de temps ? HayStackID lance un nouveau service pour la découverte et l'examen des violations de données

According to HaystackID's Chief Innovation Officer and President of Global Investigations,...

C'est un Match ! Se concentrer sur le coût total de la révision eDiscovery avec ReviewRight Match

As a leader in remote legal document review, HaystackID provides clients...

De la détection proactive aux examens de violation de données : découverte et extraction de données sensibles avec Ascema

A steady rise in the number of sensitive data discovery requirements...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Pas si exceptionnel ? Mesures opérationnelles de découverte électronique à l'hiver 2021

In the winter of 2021, eDiscovery Business Confidence Survey more...

Résultats du sondage sur la confiance des entreprises de découverte électronique de l'hiver 2021

This is the twenty-first quarterly eDiscovery Business Confidence Survey conducted by...

High Cinq ? Vue d'ensemble de cinq enquêtes semestrielles sur la tarification de la découverte électronique

As we are in the midst of a pandemic that has...

Équilibrer la pertinence et la réalité ? Résultats de l'enquête sur les prix de la découverte électronique de l'hiver

Based on the complexity of data and legal discovery, it is...