Note de l'éditeur : En tant qu'auteur, contributeur et conférencier sur eDiscovery, Herbert Roitblat est un entrepreneur en technologie, inventeur et expert qui n'a pas besoin de se familiariser avec les professionnels sérieux de l'écosystème eDiscovery. Actuellement chercheur principal des données chez Mimecast, il est un expert reconnu dans des domaines allant de la science cognitive à la récupération d'information à la découverte électronique et à l'apprentissage automatique. Chercheur et auteur prolifique, son article récemment publié sur l'étude de la modélisation topique dans eDiscovery attire l'attention sur le processus de recherche dans la découverte juridique et souligne qu'un processus de recherche assistée par ordinateur est non seulement raisonnable, mais aussi complet lorsqu'il est mesuré par sujets. Ce document, partagé avec permission, vous est fourni pour examen.
Il me manque quelque chose ? Modélisation des rubriques dans eDiscovery
Par Herbert Roitblat, Ph.D.
Abstrait
Dans le cadre de la découverte électronique juridique, les parties sont tenues de rechercher dans leurs informations stockées électroniquement pour trouver des documents pertinents à un cas particulier. Les négociations sur la portée de ces recherches sont souvent fondées sur la crainte que quelque chose ne soit pas manqué. Le présent document poursuit l'argument selon lequel l'interrogatoire préalable doit reposer sur l'identification des faits d'une affaire. Si un processus de recherche est inférieur à 100 % (si le processus de recherche est inférieur à 100 %), il peut tout de même être complet pour présenter tous les sujets pertinents disponibles. Dans cette étude, l'allocation de dirichlet latente a été utilisée pour identifier 100 sujets de tous les documents pertinents connus. Les documents ont ensuite été classés à environ 80 % Rappel (c'est-à-dire que 80 % des documents pertinents ont été trouvés par le catégoriseur, désigné l'ensemble de succès et 20 % ont été manqués, désignés l'ensemble manqué). Bien que le catégoriseur ait identifié moins que tous les documents pertinents, les documents qui ont été identifiés contenaient tous les sujets tirés de l'ensemble complet des documents. Ce même modèle consistait à déterminer si le catégoriseur était un catégoriseur de Bayes naïf formé sur une sélection aléatoire de documents ou une machine vectorielle de soutien formée avec l'apprentissage actif continu (qui concentre l'évaluation sur les documents les plus susceptibles d'être pertinents). Aucun sujet n'a été identifié dans l'ensemble manqué de l'un ou l'autre des catégories qui n'ont pas été vus dans l'ensemble de succès. Non seulement un processus de recherche assistée par ordinateur est raisonnable (comme l'exigent les Règles fédérales de procédure civile), mais il est également complet lorsqu'il est mesuré par sujets.
Consulter le document complet (PDF)
Modélisation des sujets dans eDiscovery — Herbert Roitblat Ph.D.
Lire l'article original via ARXiv® (Université Cornell)
Lecture supplémentaire
Est-ce que c'est relatif ? Enquête sur les technologies et protocoles de codage prédictif - Résultats du printemps 2020
Des plates-formes aux flux de travail : Enquête sur les technologies et protocoles de codage prédictif - Résultats de l'automne 2019
Source : ComplexDiscovery