Il manque quelque chose ? Modélisation des rubriques dans eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Note de l'éditeur : En tant qu'auteur, contributeur et conférencier sur eDiscovery, Herbert Roitblat est un entrepreneur en technologie, inventeur et expert qui n'a pas besoin de se familiariser avec les professionnels sérieux de l'écosystème eDiscovery. Actuellement chercheur principal des données chez Mimecast, il est un expert reconnu dans des domaines allant de la science cognitive à la récupération d'information à la découverte électronique et à l'apprentissage automatique. Chercheur et auteur prolifique, son article récemment publié sur l'étude de la modélisation topique dans eDiscovery attire l'attention sur le processus de recherche dans la découverte juridique et souligne qu'un processus de recherche assistée par ordinateur est non seulement raisonnable, mais aussi complet lorsqu'il est mesuré par sujets. Ce document, partagé avec permission, vous est fourni pour examen.

Il me manque quelque chose ? Modélisation des rubriques dans eDiscovery

Par Herbert Roitblat, Ph.D.

Abstrait

Dans le cadre de la découverte électronique juridique, les parties sont tenues de rechercher dans leurs informations stockées électroniquement pour trouver des documents pertinents à un cas particulier. Les négociations sur la portée de ces recherches sont souvent fondées sur la crainte que quelque chose ne soit pas manqué. Le présent document poursuit l'argument selon lequel l'interrogatoire préalable doit reposer sur l'identification des faits d'une affaire. Si un processus de recherche est inférieur à 100 % (si le processus de recherche est inférieur à 100 %), il peut tout de même être complet pour présenter tous les sujets pertinents disponibles. Dans cette étude, l'allocation de dirichlet latente a été utilisée pour identifier 100 sujets de tous les documents pertinents connus. Les documents ont ensuite été classés à environ 80 % Rappel (c'est-à-dire que 80 % des documents pertinents ont été trouvés par le catégoriseur, désigné l'ensemble de succès et 20 % ont été manqués, désignés l'ensemble manqué). Bien que le catégoriseur ait identifié moins que tous les documents pertinents, les documents qui ont été identifiés contenaient tous les sujets tirés de l'ensemble complet des documents. Ce même modèle consistait à déterminer si le catégoriseur était un catégoriseur de Bayes naïf formé sur une sélection aléatoire de documents ou une machine vectorielle de soutien formée avec l'apprentissage actif continu (qui concentre l'évaluation sur les documents les plus susceptibles d'être pertinents). Aucun sujet n'a été identifié dans l'ensemble manqué de l'un ou l'autre des catégories qui n'ont pas été vus dans l'ensemble de succès. Non seulement un processus de recherche assistée par ordinateur est raisonnable (comme l'exigent les Règles fédérales de procédure civile), mais il est également complet lorsqu'il est mesuré par sujets.

Consulter le document complet (PDF)

Modélisation des sujets dans eDiscovery — Herbert Roitblat Ph.D.

Lire l'article original via ARXiv® (Université Cornell)

Lecture supplémentaire

Est-ce que c'est relatif ? Enquête sur les technologies et protocoles de codage prédictif - Résultats du printemps 2020

Des plates-formes aux flux de travail : Enquête sur les technologies et protocoles de codage prédictif - Résultats de l'automne 2019

Source : ComplexDiscovery

De la détection proactive aux examens de violation de données : découverte et extraction de données sensibles avec Ascema

A steady rise in the number of sensitive data discovery requirements...

Réinitialiser la ligne de base ? Ajustements de taille de marché eDiscovery pour 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Nouveau du NIST : Intégration de la cybersécurité et de la gestion des risques d'entreprise (ERM)

NIST has released NISTIR 8286, Integrating Cybersecurity and Enterprise Risk Management...

Une alliance nuageuse ? Un nuage de nouvelle génération pour l'Europe

According to Thierry Breton, Commissioner for the Internal Market, "Europe needs...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Guide de l'acheteur des systèmes de divulgation électronique — Édition 2020 (Andrew Haslam)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

La course à la ligne de départ ? Annonces récentes d'examen sécurisé à distance

Not all secure remote review offerings are equal as the apparent...

Activation de la découverte électronique à distance ? Un instantané des DaaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

Réinitialiser la ligne de base ? Ajustements de taille de marché eDiscovery pour 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

À la maison ou à l'extérieur ? Considérations relatives à la taille du marché et à la tarification des collections eDis

One of the key home (onsite) or away (remote) decisions that...

Révisions et décisions ? Nouvelles considérations relatives aux examens à distance sécurisés eDiscovery

One of the key revision and decision areas that business, legal,...

Un aperçu macroéconomique de la taille du marché de la découverte électronique passée et projetée de 2012 à 2024

From a macro look at past estimations of eDiscovery market size...

Une saison de changement ? Dix-huit observations sur la confiance des entreprises de la découverte électronique à l'automne 2020

In the fall of 2020, 77.2% of eDiscovery Business Confidence Survey...

Le cas persistant des contraintes budgétaires dans l'activité de la découverte électronique

In the fall of 2020, 49.4% of respondents viewed budgetary constraints...

Comptes en suspens ? Mesures opérationnelles eDiscovery à l'automne 2020

In the fall of 2020, eDiscovery Business Confidence Survey more...

Tenir le gouvernail ? Résultats du sondage sur la confiance des entreprises en ligne Automne 2020

This is the twentieth quarterly eDiscovery Business Confidence Survey conducted by...

DISCO lève 60 millions de dollars

According to the media release, DISCO will use this investment to...

Rampiva et la fusion du groupe RYABI

According to today's announcement, the RYABI Group merger is Rampiva's first...

Fusions, acquisitions et investissements de découverte électronique au troisième trimestre 2020

From HaystackID and NightOwl Global to Reveal Data and NexLP, the...

Mitratech acquiert Acuity ELM

According to Mike Williams, CEO of Mitratech, “We came to the...

Cinq grandes lectures sur la découverte électronique pour octobre 2020

From business confidence and captive ALSPs to digital republics and mass...

Cinq grandes lectures sur la découverte électronique pour septembre 2020

From cloud forensics and cyber defense to social media and surveys,...

Cinq bonnes lectures sur eDiscovery pour août 2020

From predictive coding and artificial intelligence to antitrust investigations and malware,...

Cinq grandes lectures sur la découverte électronique pour juillet 2020

From business confidence and operational metrics to data protection and privacy...