¿Te falta algo? Modelado de temas en eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Nota del editor: Como autor, colaborador y orador en eDiscovery, Herbert Roitblat es un empresario tecnológico, inventor y experto que no necesita introducción a profesionales serios en el ecosistema de eDiscovery. Actualmente trabaja como Científico Principal de Datos en Mimecast, es un reconocido experto en áreas que van desde la ciencia cognitiva y la recuperación de información hasta eDiscovery y el aprendizaje automático. Un prolífico investigador y autor, su artículo publicado recientemente sobre el estudio del modelado tópico en eDiscovery llama la atención sobre el proceso de búsqueda en el descubrimiento legal y destaca que un proceso de búsqueda asistido por computadora no solo es razonable, sino que también es completo cuando se mide por temas. Este documento, compartido con permiso, se proporciona para su consideración.

¿Hay algo que me estoy perdiendo? Modelado de temas en eDiscovery

Por Herbert Roitblat, Ph.D.

Abstracto

En eDiscovery legal, las partes deben buscar a través de su información almacenada electrónicamente para encontrar documentos relevantes para un caso específico. Las negociaciones sobre el alcance de estas búsquedas a menudo se basan en el temor de que algo se pierda. Este artículo continúa el argumento de que el descubrimiento debe basarse en la identificación de los hechos de un caso. Si un proceso de búsqueda está menos que completo (si tiene Recall menos del 100%), es posible que aún esté completo al presentar todos los temas disponibles relevantes. En este estudio, la asignación de Dirichlet Latent se utilizó para identificar 100 temas de todos los documentos relevantes conocidos. Los documentos fueron categorizados a alrededor del 80% Recall (es decir, el 80% de los documentos relevantes fueron encontrados por el categorizador, designado el set hit y el 20% fueron perdidos, designado el set perdido). A pesar de que el categorizador identificó menos que todos los documentos pertinentes, los documentos identificados contenían todos los temas derivados del conjunto completo de documentos. Este mismo patrón se mantuvo si el categorizador era un categorizador ingenuo de Bayes entrenado en una selección aleatoria de documentos o una máquina vectorial de soporte entrenada con aprendizaje activo continuo (que enfoca la evaluación en los documentos más probables a ser relevantes). No se identificaron temas en el conjunto perdido de ninguno de los categorizadores que aún no se vieron en el conjunto de aciertos. No sólo es razonable un proceso de búsqueda asistido por computadora (según lo requerido por las Reglas Federales de Procedimiento Civil), sino que también se completa cuando se mide por temas.

Revisar el documento completo (PDF)

Modelado de temas en eDiscovery — Herbert Roitblat Ph.D

Lea el artículo original a través de ARXiv® (Universidad de Cornell)

Lectura adicional

¿Es todo relativo? Encuesta sobre tecnologías y protocolos de codificación predictiva - Resultados de primavera de 2020

De las plataformas a los flujos de trabajo: encuesta sobre tecnologías y protocolos de codificación predictiva - Resultados de otoño de 2019

Fuente: ComplexDiscovery

De la detección proactiva a las revisiones de violaciones de datos: Detección y extracción de datos confidenciales con Ascema

A steady rise in the number of sensitive data discovery requirements...

¿Restablecer la línea base? Ajustes de tamaño de mercado de eDiscovery para 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Nuevo de NIST: Integración de la Ciberseguridad y la Gestión de Riesgos Empresariales (ERM)

NIST has released NISTIR 8286, Integrating Cybersecurity and Enterprise Risk Management...

¿Una alianza nublada? Una nube de próxima generación para Europa

According to Thierry Breton, Commissioner for the Internal Market, "Europe needs...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Guía de compradores de eDisclosure Systems — Edición 2020 (Andrew Haslam)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

¿La carrera a la línea de salida? Anuncios recientes de revisión remota segura

Not all secure remote review offerings are equal as the apparent...

¿Activando la exhibición remota de documentos electrónicos? Una instantánea de DaaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

¿Restablecer la línea base? Ajustes de tamaño de mercado de eDiscovery para 2020

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

¿A casa o a distancia? Consideraciones sobre el tamaño del mercado y los precios de la colección eDiscovery

One of the key home (onsite) or away (remote) decisions that...

Revisiones y decisiones? Nuevas consideraciones para eDiscovery Secure Remote Reviews

One of the key revision and decision areas that business, legal,...

Una mirada macro al tamaño del mercado de eDiscovery pasado y proyectado de 2012 a 2024

From a macro look at past estimations of eDiscovery market size...

¿Una temporada de cambio? Dieciocho observaciones sobre la confianza empresarial de eDiscovery en el otoño de 2020

In the fall of 2020, 77.2% of eDiscovery Business Confidence Survey...

El caso continuo de restricciones presupuestarias en el negocio de eDiscovery

In the fall of 2020, 49.4% of respondents viewed budgetary constraints...

¿Cuentas pendientes? Métricas operativas de eDiscovery en el otoño de 2020

In the fall of 2020, eDiscovery Business Confidence Survey more...

¿Sostener el timón? Resultados de la encuesta de confianza empresarial eDiscovery otoño 2020

This is the twentieth quarterly eDiscovery Business Confidence Survey conducted by...

DISCO recauda $60 millones

According to the media release, DISCO will use this investment to...

Rampíva y la fusión de grupos RYABI

According to today's announcement, the RYABI Group merger is Rampiva's first...

Fusiones, adquisiciones e inversiones de eDiscovery en el tercer trimestre de 2020

From HaystackID and NightOwl Global to Reveal Data and NexLP, the...

Mitratech adquiere agudeza ELM

According to Mike Williams, CEO of Mitratech, “We came to the...

Cinco grandes lecturas sobre eDiscovery para octubre de 2020

From business confidence and captive ALSPs to digital republics and mass...

Cinco grandes lecturas sobre eDiscovery para septiembre de 2020

From cloud forensics and cyber defense to social media and surveys,...

Cinco grandes lecturas en eDiscovery para agosto de 2020

From predictive coding and artificial intelligence to antitrust investigations and malware,...

Cinco grandes lecturas sobre eDiscovery para julio de 2020

From business confidence and operational metrics to data protection and privacy...