¿Es todo relativo? Encuesta sobre tecnologías y protocolos de codificación predictiva — Resultados de la primavera de 2020

The Predictive Coding Technologies and Protocols Survey is a non-scientific survey designed to help provide a general understanding of the use of predictive coding technologies, protocols, and workflows by data discovery and legal discovery professionals within the eDiscovery ecosystem.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Nota del Editor: Esta es la cuarta Encuesta de Codificación Predictiva y Tecnologías y Protocolos llevada a cabo por ComplexDiscovery. Iniciada en otoño de 2018 y actualizada semestralmente, esta iteración de la encuesta contó con 63 profesionales de datos y descubrimiento legal compartiendo su comprensión y experiencia como parte de la encuesta de cuatro preguntas. A continuación se presentan los resultados de la encuesta de primavera de 2020 con la esperanza de que los resultados de la encuesta general y no científica puedan ayudar a los profesionales de eDiscovery a considerar plataformas de codificación predictiva, tecnologías, protocolos, flujos de trabajo y usos.

La Encuesta de Tecnologías y Protocolos de Codificación Predictiva Primavera 2020

La Encuesta de Tecnologías de Codificación Predictiva y Protocolos es una encuesta no científica diseñada para ayudar a proporcionar una comprensión general del uso de tecnologías de codificación predictiva, protocolos y flujos de trabajo por parte de los profesionales de descubrimiento de datos y descubrimiento legal dentro del ecosistema de eDiscovery. La encuesta de primavera de 2020 estuvo abierta desde el 10 de febrero de 2020 hasta el 12 de febrero de 2020, con personas invitadas a participar directamente por CompleXDiscovery.

Diseñado para proporcionar una comprensión general de las tecnologías y protocolos de codificación predictiva, la encuesta tuvo dos objetivos educativos primarios:

Proporcionar una lista consolidada de posibles definiciones de tecnología de codificación predictiva, protocolo y flujo de trabajo. Aunque no incluyente ni exhaustiva, la lista fue examinada por expertos en codificación predictiva de la industria para determinar si es completa y exacta, por lo que parece ser rentable para su uso en actividades educativas.

Preguntar a los profesionales del ecosistema de eDiscovery acerca de sus preferencias con respecto a las plataformas de codificación predictiva, las tecnologías, los protocolos, los flujos de trabajo y las áreas de uso.

La encuesta ofreció a los respondedores la oportunidad de proporcionar información de antecedentes de codificación predictiva, incluida su plataforma de codificación predictiva primaria, así como planteó cuatro preguntas específicas a los respondedores. Esas preguntas son las siguientes:

¿Qué tecnologías de codificación predictiva utilizan su plataforma eDiscovery?

¿Qué protocolos de revisión asistida por tecnología se utilizan en su entrega de codificación predictiva?

¿Cuál es el flujo de trabajo primario de revisión asistida por tecnología utilizado en su entrega de codificación predictiva?

¿Cuáles son las áreas en las que utiliza tecnologías de revisión asistida por tecnología, protocolos y flujos de trabajo?

Cerrada el 12 de febrero de 2020, la encuesta de primavera de 2020 contó con 63 respondedores.

Principales resultados y observaciones

Plataforma de codificación predictiva primaria (gráfico 1)

El 90.47% de los respondedores informó que tienen al menos una plataforma primaria para la codificación predictiva.

Hubo 20 plataformas diferentes reportadas como plataforma de codificación predictiva primaria por los respondedores.

La relatividad fue reportada como plataforma de codificación predictiva primaria por el 38,10% de los encuestados.

Las dos principales plataformas fueron reportadas como una plataforma de codificación predictiva primaria por el 53,97% de los encuestados.

9.52% de los respondedores informaron que no tenían una plataforma primaria para la codificación predictiva.

Empleo de tecnología de codificación predictiva (gráfico 2)

Todas las tecnologías de codificación predictiva enumeradas fueron utilizadas por al menos un encuestador.

El Aprendizaje Activo fue reportado como la tecnología de codificación predictiva más utilizada, ya que el 85,71% de los respondedores la utilizó en sus esfuerzos de codificación predictiva.

El 34.92% de los respondedores reportaron usar solo una tecnología de codificación predictiva en sus esfuerzos de codificación predictiva.

57,14% de los respondedores informaron utilizar más de una tecnología de codificación predictiva en sus esfuerzos de codificación predictiva.

El 7,94% de los respondedores no informó de utilizar ninguna tecnología específica de codificación predictiva.

Protocolo de revisión asistida por tecnología sobre empleo (gráfico 3)

Todos los protocolos asistidos por tecnología enumerados para la codificación predictiva fueron utilizados por al menos un encuestador.

Continuous Active Learning® (CAL®) fue reportado como el protocolo de codificación predictiva más utilizado, con 90,48% de los respondedores que lo utilizaron en sus esfuerzos de codificación predictiva.

57,14% de los respondedores reportaron usar solo un protocolo de codificación predictiva en sus esfuerzos de codificación predictiva.

El 41,27% de los respondedores reportaron utilizar más de un protocolo de codificación predictiva en sus esfuerzos de codificación predictiva.

1.59% de los respondedores informaron no utilizar ningún protocolo de codificación predictiva.

Empleo del flujo de trabajo de revisión asistida por tecnología (gráfico 4)

El 73,02% de los respondedores reportaron utilizar la Revisión Asistida por Tecnología (TAR) 2.0 como flujo de trabajo primario en la entrega de codificación predictiva.

El 7,94% de los respondedores informaron utilizar TAR 1.0 y el 9,52% de los respondedores informaron utilizar TAR 3.0 como flujo de trabajo primario en la entrega de codificación predictiva.

El 9.52% de los respondedores no reportaron utilizar TAR 1.0, TAR 2.0 o TAR 3.0 como flujo de trabajo primario en la entrega de codificación predictiva.

Usos de las revisiones asistidas por tecnología (gráfico 5)

El 93,65% de los encuestados informaron haber utilizado la revisión asistida por tecnología en más de un área de datos y descubrimiento legal.

El 96,83% de los encuestados informaron de que habían utilizado un examen asistido por tecnología para la identificación de los documentos pertinentes.

El 14,29% de los encuestados informaron de que utilizaban exámenes asistidos por tecnología para la gobernanza de la información y la disposición de los datos.

Descripción general de la tecnología de codificación predictiva y del respondedor de encuestas de protocolo (gráfico 6)

El 41,27%% de los respondedores procedían de bufetes de abogados.

El 38,10% de los respondedores procedían de organizaciones de proveedores de software o de servicios.

El 20,63% restante de los respondedores formaban parte de una consultoría (14,29%), una corporación (4,76%), el gobierno (0%) u otro tipo de entidad (1,59%).

Gráficos de encuestas

(Los gráficos se pueden ampliar para una visualización detallada).

Gráfico 1: Nombre de la plataforma de codificación predictiva primaria

1-Plataforma de Codida-Predictiva-Primavera-2020

Gráfico 2: ¿Qué tecnologías de codificación predictiva utilizan su plataforma eDiscovery?

2-Predictivo-Coding-Tecnología-Usada-Primavera-2020

Gráfico 3: ¿Qué protocolos de revisión asistida por tecnología se utilizan en la entrega de la codificación predictiva?

3-Revisión-Revisión-Protocolo-Utilizado-Primavera-2020

Gráfico 4: ¿Cuál es el flujo de trabajo primario de revisión asistida por tecnología utilizado en su entrega de codificación predictiva?

4-Revisión-asistida por tecnología-Flujo de trabajo-Uso-Primavera-2020

Gráfico 5: ¿Cuáles son las áreas en las que utiliza tecnologías de revisión asistida por tecnología, protocolos y flujos de trabajo?

5-Revisión-Asistencia-Usos - Primavera-2020

Gráfico 6: Visión General del Respondedor de Encuestas

6-Tecnologías de codificación-predictiva-y-protocolos-Survey-Overview-Primavera-2020

Tecnologías y protocolos de codificación predictiva (antecedentes de la encuesta)

Tal como se define en The Grossman-Cormack Glossary of Technology-Assisted Review (1), Predictive Coding es un término específico de la industria generalmente utilizado para describir un proceso de revisión asistida por tecnología que implica el uso de un algoritmo de aprendizaje automático para distinguir documentos relevantes de no relevantes, basado en un tema de un conjunto de documentos de capacitación. Esta definición de codificación predictiva proporciona una descripción de línea de base que identifica una función particular que un conjunto general de algoritmos de aprendizaje automático comúnmente aceptados puede utilizar en una revisión asistida por tecnología (TAR).

Con la creciente conciencia y uso de la codificación predictiva en el ámbito legal en la actualidad, parece que es cada vez más importante que los profesionales del descubrimiento electrónico tengan una comprensión general de las tecnologías que se pueden implementar en las plataformas de descubrimiento electrónico para facilitar la codificación predictiva de información almacenada electrónicamente. Esta comprensión general es esencial ya que cada enfoque algorítmico potencial tiene ventajas y desventajas de eficiencia que pueden afectar la eficiencia y eficacia de la codificación predictiva.

Para ayudar en el desarrollo de esta comprensión general de las tecnologías de codificación predictiva y proporcionar una oportunidad a los proveedores de descubrimiento electrónico para compartir las tecnologías y protocolos que utilizan en y con sus plataformas para lograr la codificación predictiva, las siguientes listas de trabajo de codificación predictiva y protocolos TAR se proporcionan para su uso. Las listas de trabajo sobre flujos de trabajo y usos de codificación predictiva también se incluyen para su consideración, ya que ayudan a definir cómo se implementan y usan las tecnologías de codificación predictiva y los protocolos TAR.

Una lista de trabajo de tecnologías de codificación predictiva (1,2,3,4)

Agregado a partir de expertos en descubrimiento electrónico basados en publicaciones profesionales y conversaciones personales, a continuación se proporciona una lista de trabajo no completa de tecnologías de aprendizaje automático identificadas que se han aplicado o tienen el potencial de aplicarse a la disciplina de eDiscovery para facilitar codificación predictiva. Esta lista de trabajo está diseñada para proporcionar un punto de referencia para las tecnologías de codificación predictiva identificadas y, con el tiempo, puede incluir adiciones, ajustes y enmiendas basadas en comentarios de expertos y organizaciones que aplican e implementan estas tecnologías convencionales en sus plataformas específicas de eDiscovery.

Listados en orden alfabético

Aprendizaje activo: proceso, típicamente iterativo, por el que se utiliza un algoritmo para seleccionar documentos que se deben revisar para la formación basada en una estrategia que ayude al algoritmo de clasificación a aprender de manera eficiente.

Árbol de decisiones: método paso a paso para distinguir entre documentos relevantes y no relevantes, dependiendo de la combinación de palabras (u otras características) que contengan. Un árbol de decisiones para identificar documentos relacionados con derivados financieros podría determinar primero si un documento contenía o no la palabra «swap». Si lo hiciera, el Árbol de Decisiones podría determinar si el documento contenía o no «crédito», etc. Se puede crear un árbol de decisiones a través de la ingeniería del conocimiento o el aprendizaje automático.

K-Nearest Neighbor Classifier (k-nn): algoritmo de clasificación que analiza los documentos de ejemplo k que son más similares (más cercanos) al documento que se está clasificando para determinar la mejor clasificación para el documento. Si k es demasiado pequeño (por ejemplo, k=1), puede ser extremadamente difícil lograr una alta recuperación.

Análisis Semántico Latente (LSA): Una representación matemática de documentos que trata palabras altamente correlacionadas (es decir, palabras que tienden a aparecer en los mismos documentos) como equivalentes o intercambiables en un sentido. Esta equivalencia o intercambiabilidad puede permitir a los algoritmos identificar documentos como conceptualmente similares incluso cuando no están usando las mismas palabras (por ejemplo, porque los sinónimos pueden estar altamente correlacionados), aunque también descarta información potencialmente útil y puede conducir a resultados indeseables causados por correlaciones espurias.

Regresión logística: Algoritmo de aprendizaje supervisado de última generación para el aprendizaje automático que estima la probabilidad de que un documento sea relevante, en función de las características que contiene. A diferencia del algoritmo Naïve Bayes, Regresión logística identifica características que discriminan entre documentos relevantes y no relevantes.

Naïve Bayesian Classifier: sistema que examina la probabilidad de que cada palabra de un nuevo documento provenga de la distribución de palabras derivada de un documento sensible capacitado o documentos no sensibles capacitados. El sistema es ingenuo en el sentido de que asume que todas las palabras son independientes unas de otras.

Red neuronal: Una red neuronal artificial (ANN) es un modelo computacional. Se basa en la estructura y las funciones de las redes neuronales biológicas. Funciona como la forma en que el cerebro humano procesa la información. Incluye un gran número de unidades de procesamiento conectadas que trabajan juntas para procesar la información.

Análisis semántico latente probabilístico (PLSA): Este es similar en espíritu al LSA, pero utiliza un modelo probabilístico para lograr resultados que se espera que sean mejores.

Bosques aleatorios: método de aprendizaje conjunto para la clasificación, regresión y otras tareas, que operan construyendo una multitud de árboles de decisión en el tiempo de entrenamiento y dando salida a la clase que es el modo de las clases (clasificación) o predicción media (regresión) de los árboles individuales. Los bosques de decisión aleatoria son correctos para el hábito de los árboles de decisión de sobreajustarse a su conjunto de entrenamiento.

Comentarios por relevancia: proceso de aprendizaje activo en el que los documentos con mayor probabilidad de relevancia son codificados por un humano y añadidos al conjunto de entrenamiento.

Soporte Vector Machine: Un enfoque matemático que busca encontrar una línea que separe los documentos receptivos de modo que, idealmente, todos los documentos responsivos estén en un lado de la línea y todos los que no responden estén en el otro lado.

Protocolos generales TIR (5,6,7,8,9,10)

Además, estas tecnologías se emplean generalmente como parte de un protocolo TAR que determina cómo se utilizan las tecnologías. Algunos ejemplos de protocolos TAR son:

Listados en orden alfabético

Continuous Active Learning® (CAL®): En CAL®, el método TAR desarrollado, utilizado y defendido por Maura R. Grossman y Gordon V. Cormack, después de la formación inicial, el alumno selecciona repetidamente los documentos más probables para ser relevantes (que aún no han sido considerados) para su revisión, codificación y capacitación. y sigue haciéndolo hasta que no pueda encontrar más documentos pertinentes. Por lo general, no hay una segunda revisión porque, cuando el alumno deja de aprender, todos los documentos considerados relevantes por el alumno ya se han identificado y revisado manualmente.

Método Multimodal Híbrido: Un enfoque desarrollado por el equipo de e-Discovery (Ralph Losey) que incluye todos los tipos de métodos de búsqueda, con la máxima confianza en la codificación predictiva y el uso de documentos de alto rango para el entrenamiento activo continuo.

Aprendizaje activo continuo escalable (S-CAL): La diferencia esencial entre S-CAL y CAL® es que para S-CAL, solo se selecciona una muestra finita de documentos de cada lote sucesivo para el etiquetado, y el proceso continúa hasta que se agote la colección (o una gran muestra aleatoria de la colección). En conjunto, las muestras finitas forman una muestra estratificada de la población documentada, de la que puede derivarse una estimación estadística de ρ.

Aprendizaje Activo Simple (SAL): En los métodos de SAL, después del conjunto de formación inicial, el alumno selecciona los documentos que el profesor debe revisar y codificar, y los utiliza como ejemplos de capacitación, y continúa seleccionando ejemplos hasta que esté suficientemente capacitado. Normalmente, los documentos que elige el alumno son aquellos sobre los que el alumno está menos seguro y, por lo tanto, de los que aprenderá más. Una vez lo suficientemente capacitado, el alumno se utiliza para etiquetar todos los documentos de la colección. Al igual que con SPL, los documentos etiquetados como relevantes generalmente se revisan manualmente.

Aprendizaje pasivo simple (SPL): En los métodos de aprendizaje pasivo simple («SPL»), el profesor (es decir, el operador humano) selecciona los documentos que se utilizarán como ejemplos de capacitación; el alumno recibe formación utilizando estos ejemplos, y una vez suficientemente capacitado, se utiliza para etiquetar cada documento de la colección como relevante o no - pertinentes. Por lo general, los documentos etiquetados como relevantes por el alumno se revisan manualmente. Esta revisión manual representa una pequeña fracción de la colección y, por lo tanto, una pequeña fracción del tiempo y el costo de una revisión manual exhaustiva.

Flujos de trabajo TAR (11)

Los flujos de trabajo TAR representan la aplicación práctica de tecnologías y protocolos de codificación predictiva para definir enfoques para completar tareas de codificación predictiva. Tres ejemplos de flujos de trabajo TAR incluyen:

TAR 1.0 implica una fase de entrenamiento seguida de una fase de revisión con un conjunto de control que se utiliza para determinar el punto óptimo en el que debe pasar del entrenamiento a la revisión. El sistema ya no aprende una vez completada la fase de entrenamiento. El conjunto de control es un conjunto aleatorio de documentos que han sido revisados y marcados como relevantes o no relevantes. Los documentos del conjunto de controles no se utilizan para entrenar el sistema. Se utilizan para evaluar las predicciones del sistema, de modo que la capacitación pueda terminar cuando los beneficios de la capacitación adicional ya no superen el costo de la capacitación adicional. La capacitación puede realizarse con documentos seleccionados aleatoriamente, conocidos como Aprendizaje Pasivo Simple (SPL), o puede incluir documentos elegidos por el sistema para optimizar la eficiencia del aprendizaje, conocido como Aprendizaje Activo Simple (SAL).

TAR 2.0 utiliza un enfoque llamado Continuous Active Learning® (CAL®), lo que significa que no hay separación entre la capacitación y la revisión: el sistema continúa aprendiendo a lo largo de todo. Aunque se pueden utilizar muchos enfoques para seleccionar documentos para su revisión, un componente significativo de CAL® son muchas iteraciones de predecir qué documentos son más propensos a ser relevantes, revisarlos y actualizar las predicciones. A diferencia de TAR 1.0, TAR 2.0 tiende a ser muy eficiente incluso cuando la prevalencia es baja. Dado que no hay separación entre entrenamiento y revisión, TAR 2.0 no requiere un conjunto de control. La generación de un conjunto de control puede implicar la revisión de un gran número (especialmente cuando la prevalencia es baja) de documentos no relevantes, por lo que es deseable evitar conjuntos de control.

TAR 3.0 requiere un algoritmo de clústeres conceptuales de alta calidad que forma clústeres estrechamente enfocados de tamaño fijo en el espacio conceptual. Aplica la metodología TAR 2.0 sólo a los centros de clúster, lo que garantiza la revisión de un conjunto diverso de documentos potencialmente relevantes. Una vez que no se pueden encontrar más centros de clúster relevantes, los centros de clúster revisados se utilizan como documentos de capacitación para hacer predicciones para toda la población de documentos. No hay necesidad de un conjunto de control: el sistema está bien entrenado cuando no se pueden encontrar centros de clúster relevantes adicionales. El análisis de los centros de grupos temáticos examinados proporciona una estimación de la prevalencia y el número de documentos no pertinentes que se producirían si se elaboraran documentos basados exclusivamente en las predicciones sin revisión humana. El usuario puede decidir producir documentos (no identificados como potencialmente privilegiados) sin revisión, similares a SAL de TAR 1.0 (pero sin un conjunto de control), o puede decidir revisar documentos que tienen demasiado riesgo de no ser relevantes (que pueden ser utilizados como formación adicional para el sistema, es decir, CAL®). El punto clave es que el usuario tiene la información que necesita para tomar una decisión sobre cómo proceder después de completar la revisión de los centros de clúster que son susceptibles de ser relevantes, y nada hecho antes de que ese punto quede invalidado por la decisión (compare con comenzar con TAR 1.0, revisar un conjunto de controles, encontrar que las predicciones no son lo suficientemente buenas para producir documentos sin revisión, y luego cambiar a TAR 2.0, lo que hace que el conjunto de controles sea prácticamente inútil).

Usos de TAR (12)

Las tecnologías, protocolos y flujos de trabajo TAR se pueden utilizar de manera eficaz para ayudar a los profesionales de eDiscovery a realizar muchas tareas de descubrimiento de datos y descubrimiento legal. Nueve ejemplos comúnmente considerados de uso de TIE incluyen:

Identificación de los documentos pertinentes

Evaluación temprana de casos e investigación

Priorización para revisión

Categorización (por problemas, por confidencialidad o privacidad)

Revisión de privilegios

Control de calidad y garantía de calidad

Revisión de Incoming Productions

Disposición y preparación del juicio

Gobernanza de la Información y Disposición de Datos

Información de la encuesta (13,14,15,16,17,18)

Referencias

(1) Grossman, M. y Cormack, G. (2013). El Glosario Grossman-Cormack de Revisión Asistida por Tecnología. [ebook] Federal Courts Law Review. Disponible en: http://www.fclr.org/fclr/articles/html/2010/grossman.pdf [Accedido el 31 de agosto de 2018].

(2) Dimm, B. (2018). Experiencia en codificación predictiva. [correo electrónico].

(3) Roitblat, H. (2013). Introducción a la codificación predictiva. [ebook] Orcatec. Disponible en: 31 ago. 2018].

(4) Tredennick, J. y Pickens, J. (2017). Aprendizaje profundo en e-Discovery: Pasando más allá del bombo. [en línea] CatalystSecure.com. Disponible en: 31 ago. 2018].

(5) Grossman, M. y Cormack, G. (2017). Revisión asistida por tecnología en descubrimiento electrónico. [ebook] Disponible en: 31 Ago. 2018].

(6) Grossman, M. y Cormack, G. (2016). Aprendizaje Activo Continuo para TAR. [ebook] Derecho práctico. Disponible en: 31 ago. 2018].

(7) Grossman, M. y Cormack, G. (2016). Escalabilidad del aprendizaje activo continuo para una clasificación fiable de texto de alta recuperación. [ebook] Disponible en: 3 Sep. 2018].

(8) Losey, R., Sullivan, J. y Reichenberger, T. (2015) Equipo de e-Discovery en TREC 2015 Total Recall Track. [ebook] Disponible en: [Accedido el 1 de septiembre de 2018].

(9) «Marca registrada de Maura Grossman y Gordon V. Cormack - Número de registro 5876987 - Número de serie 86634255:: Marcas de Justia». Trademarks.Justia.com, 2020, [Accedido el 12 de febrero de 2020].

(10) «Marca comercial CAL de Maura Grossman y Gordon V. Cormack - Número de registro 5876988 - Número de serie 86634265:: Marcas de Justia». Trademarks.Justia.com, 2020, [Accedido el 12 de febrero de 2020].

(11) Dimm, B. (2016), TAR 3.0 Rendimiento. [online] Blog Clustify — eDiscovery, Clustering de documentos, codificación predictiva, recuperación de información y desarrollo de software. Disponible en: 18 Feb. 2019].

(12) Modelo de referencia de descubrimiento electrónico (EDRM) (2019). Directrices para el examen asistido por tecnología (TIE). [en línea] Disponible en: 18 Feb. 2019].

(13) Dimm, B. (2018). TIR, proporcionalidad y algoritmos erróneos (1-NN). [online] Blog Clustify — eDiscovery, Clustering de documentos, codificación predictiva, recuperación de información y desarrollo de software. Disponible en: 31 ago. 2018].

(14) Robinson, R. (2013). Resultados de ejecución: Encuesta de implementación de proveedor de una pregunta de codificación predictiva. [online] ComplexDiscovery: Información de exhibición de documentos electrónicos. Disponible en: 31 ago. 2018].

(15) Robinson, R. (2018). Una lista en ejecución: más de 100 proveedores de eDiscovery. [online] ComplexDiscovery: Información de exhibición de documentos electrónicos. Disponible en: 31 ago. 2018].

(16) Robinson, R. (2018) Relativamente hablando: tecnologías de codificación predictiva y protocolos resultados de la encuesta [online] complejDiscovery: información de eDiscovery. Disponible en: 18 Feb. 2019].

(17) Robinson, R. (2019) Aprendiendo activamente? Tecnologías de codificación predictiva y protocolos Resultados de la encuesta [en línea] ComplejoDescubrimiento: Información de exhibición electrónica. Disponible en: 22 ago. 2019]

(18) Robinson, R. (2019) De las plataformas a los flujos de trabajo: Encuesta de tecnologías de codificación predictiva y protocolos - Resultados de otoño de 2019 [online] ComplexDiscovery: información de eDiscovery. Disponible en: [Accedido 12 feb. 2020].

Haga clic aquí para proporcionar adiciones, correcciones y actualizaciones específicas.

Fuente: ComplexDiscovery