Nota del editor: Como autor, colaborador y orador en eDiscovery, Herbert Roitblat es un empresario tecnológico, inventor y experto que no necesita introducción a profesionales serios en el ecosistema de eDiscovery. Actualmente trabaja como Científico Principal de Datos en Mimecast, es un reconocido experto en áreas que van desde la ciencia cognitiva y la recuperación de información hasta eDiscovery y el aprendizaje automático. Un prolífico investigador y autor, su artículo publicado recientemente sobre el estudio del modelado tópico en eDiscovery llama la atención sobre el proceso de búsqueda en el descubrimiento legal y destaca que un proceso de búsqueda asistido por computadora no solo es razonable, sino que también es completo cuando se mide por temas. Este documento, compartido con permiso, se proporciona para su consideración.
¿Hay algo que me estoy perdiendo? Modelado de temas en eDiscovery
Por Herbert Roitblat, Ph.D.
Abstracto
En eDiscovery legal, las partes deben buscar a través de su información almacenada electrónicamente para encontrar documentos relevantes para un caso específico. Las negociaciones sobre el alcance de estas búsquedas a menudo se basan en el temor de que algo se pierda. Este artículo continúa el argumento de que el descubrimiento debe basarse en la identificación de los hechos de un caso. Si un proceso de búsqueda está menos que completo (si tiene Recall menos del 100%), es posible que aún esté completo al presentar todos los temas disponibles relevantes. En este estudio, la asignación de Dirichlet Latent se utilizó para identificar 100 temas de todos los documentos relevantes conocidos. Los documentos fueron categorizados a alrededor del 80% Recall (es decir, el 80% de los documentos relevantes fueron encontrados por el categorizador, designado el set hit y el 20% fueron perdidos, designado el set perdido). A pesar de que el categorizador identificó menos que todos los documentos pertinentes, los documentos identificados contenían todos los temas derivados del conjunto completo de documentos. Este mismo patrón se mantuvo si el categorizador era un categorizador ingenuo de Bayes entrenado en una selección aleatoria de documentos o una máquina vectorial de soporte entrenada con aprendizaje activo continuo (que enfoca la evaluación en los documentos más probables a ser relevantes). No se identificaron temas en el conjunto perdido de ninguno de los categorizadores que aún no se vieron en el conjunto de aciertos. No sólo es razonable un proceso de búsqueda asistido por computadora (según lo requerido por las Reglas Federales de Procedimiento Civil), sino que también se completa cuando se mide por temas.
Revisar el documento completo (PDF)
Modelado de temas en eDiscovery — Herbert Roitblat Ph.D
Lea el artículo original a través de ARXiv® (Universidad de Cornell)
Lectura adicional
¿Es todo relativo? Encuesta sobre tecnologías y protocolos de codificación predictiva - Resultados de primavera de 2020
De las plataformas a los flujos de trabajo: encuesta sobre tecnologías y protocolos de codificación predictiva - Resultados de otoño de 2019
Fuente: ComplexDiscovery