¿Te falta algo? Modelado de temas en eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Nota del editor: Como autor, colaborador y orador en eDiscovery, Herbert Roitblat es un empresario tecnológico, inventor y experto que no necesita introducción a profesionales serios en el ecosistema de eDiscovery. Actualmente trabaja como Científico Principal de Datos en Mimecast, es un reconocido experto en áreas que van desde la ciencia cognitiva y la recuperación de información hasta eDiscovery y el aprendizaje automático. Un prolífico investigador y autor, su artículo publicado recientemente sobre el estudio del modelado tópico en eDiscovery llama la atención sobre el proceso de búsqueda en el descubrimiento legal y destaca que un proceso de búsqueda asistido por computadora no solo es razonable, sino que también es completo cuando se mide por temas. Este documento, compartido con permiso, se proporciona para su consideración.

¿Hay algo que me estoy perdiendo? Modelado de temas en eDiscovery

Por Herbert Roitblat, Ph.D.

Abstracto

En eDiscovery legal, las partes deben buscar a través de su información almacenada electrónicamente para encontrar documentos relevantes para un caso específico. Las negociaciones sobre el alcance de estas búsquedas a menudo se basan en el temor de que algo se pierda. Este artículo continúa el argumento de que el descubrimiento debe basarse en la identificación de los hechos de un caso. Si un proceso de búsqueda está menos que completo (si tiene Recall menos del 100%), es posible que aún esté completo al presentar todos los temas disponibles relevantes. En este estudio, la asignación de Dirichlet Latent se utilizó para identificar 100 temas de todos los documentos relevantes conocidos. Los documentos fueron categorizados a alrededor del 80% Recall (es decir, el 80% de los documentos relevantes fueron encontrados por el categorizador, designado el set hit y el 20% fueron perdidos, designado el set perdido). A pesar de que el categorizador identificó menos que todos los documentos pertinentes, los documentos identificados contenían todos los temas derivados del conjunto completo de documentos. Este mismo patrón se mantuvo si el categorizador era un categorizador ingenuo de Bayes entrenado en una selección aleatoria de documentos o una máquina vectorial de soporte entrenada con aprendizaje activo continuo (que enfoca la evaluación en los documentos más probables a ser relevantes). No se identificaron temas en el conjunto perdido de ninguno de los categorizadores que aún no se vieron en el conjunto de aciertos. No sólo es razonable un proceso de búsqueda asistido por computadora (según lo requerido por las Reglas Federales de Procedimiento Civil), sino que también se completa cuando se mide por temas.

Revisar el documento completo (PDF)

Modelado de temas en eDiscovery — Herbert Roitblat Ph.D

Lea el artículo original a través de ARXiv® (Universidad de Cornell)

Lectura adicional

¿Es todo relativo? Encuesta sobre tecnologías y protocolos de codificación predictiva - Resultados de primavera de 2020

De las plataformas a los flujos de trabajo: encuesta sobre tecnologías y protocolos de codificación predictiva - Resultados de otoño de 2019

Fuente: ComplexDiscovery

Revelar y combinar espacio de cerebro

According to Wendell Jisa, founder and CEO of Reveal, "Backed by...

Fusiones, adquisiciones e inversiones de eDiscovery en 2020

Since beginning to track the number of publicly highlighted merger, acquisition,...

La relatividad adquiere VerQu

According to Relativity CEO Mike Gamson, "It's imperative that the legal...

Fusiones, adquisiciones e inversiones de eDiscovery en el cuarto trimestre de 2020

From Nuix and DISCO to Exterro and AccessData, the following findings,...

¿Una nueva era en eDiscovery? Enmarcar el crecimiento del mercado a través de la lente de las seis eras

There are many excellent resources for considering chronological and historiographical approaches...

Un Mashup de tamaño de mercado de eDiscovery: 2020-2025 Información general sobre software y servicios en todo el mundo

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

¿Restablecer la línea base? Ajustes de tamaño de mercado de eDiscovery para 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

¿A casa o a distancia? Consideraciones sobre el tamaño del mercado y los precios de la colección eDiscovery

One of the key home (onsite) or away (remote) decisions that...

Cinco excelentes lecturas sobre eDiscovery para enero de 2021

From eDiscovery business confidence and operational metrics to merger and acquisition...

Cinco excelentes lecturas sobre eDiscovery para diciembre de 2020

May the peace and joy of the holiday season be with...

Cinco excelentes lecturas sobre eDiscovery para noviembre de 2020

From market sizing and cyber law to industry investments and customer...

Cinco grandes lecturas sobre eDiscovery para octubre de 2020

From business confidence and captive ALSPs to digital republics and mass...

¿Sólo una cuestión de tiempo? HayStackID lanza un nuevo servicio para la detección y revisión de brechas de datos

According to HaystackID's Chief Innovation Officer and President of Global Investigations,...

¡Es un fósforo! Centrarse en el costo total de la revisión de eDiscovery con ReviewRight Match

As a leader in remote legal document review, HaystackID provides clients...

De la detección proactiva a las revisiones de violaciones de datos: Detección y extracción de datos confidenciales con Ascema

A steady rise in the number of sensitive data discovery requirements...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Problemas que afectan el rendimiento empresarial de eDiscovery: Una descripción general del invierno 2021

In the winter of 2021, 43.3% of respondents viewed budgetary constraints...

¿No tan sobresaliente? Métricas operativas de eDiscovery en el invierno de 2021

In the winter of 2021, eDiscovery Business Confidence Survey more...

Resultados de la encuesta de confianza empresarial Winter 2021 eDiscovery

This is the twenty-first quarterly eDiscovery Business Confidence Survey conducted by...

¿High Cinco? Una visión general general de cinco encuestas semestrales de precios de eDiscovery

As we are in the midst of a pandemic that has...