Sun. Sep 25th, 2022
    en flag
    nl flag
    et flag
    fi flag
    fr flag
    de flag
    he flag
    ja flag
    lv flag
    pl flag
    pt flag
    ru flag
    es flag

    Nota del editor: Esta es la séptima encuesta semestral de tecnologías y protocolos de codificación predictiva realizada por ComplexDiscovery. Las seis encuestas iniciales proporcionaron información detallada de aproximadamente 384* profesionales legales, empresariales y tecnológicos sobre el uso de tecnologías específicas de aprendizaje automático en la codificación predictiva y también destacaron el uso de esas tecnologías de aprendizaje automático como parte de un ejemplo de revisión asistida por tecnología. protocolos. Esta iteración de la encuesta sigue centrándose en tecnologías de codificación predictiva, protocolos, flujos de trabajo y usos en todo el ecosistema de eDiscovery. Originalmente consistente en cuatro preguntas principales, a partir del otoño de 2020, la encuesta incluyó una nueva pregunta sobre la prevalencia del uso de codificación predictiva como parte de los flujos de trabajo de eDiscovery.

    Tecnologías y protocolos de codificación predictiva (encuesta)

    Una encuesta de cinco preguntas

    A continuación se proporciona un enlace a una sencilla encuesta de cinco preguntas diseñada para capturar la aplicación actual de tecnologías, protocolos, flujos de trabajo y usos de la codificación predictiva en el ecosistema eDiscovery.

    Se alienta a los profesionales jurídicos, de la tecnología de la información y de negocios que participan en actividades organizativas que implican el uso de codificación predictiva a completar la breve encuesta de cinco preguntas.

    Los resultados de la encuesta (excluyendo la información de contacto del respondedor) se agregarán y publicarán en el blog de ComplexDiscovery para su uso por la comunidad de eDiscovery.

    Tecnologías y protocolos de codificación predictiva (antecedentes de encuestas)

    Como se define en The Grossman-Cormack Glosary of Technology Assisted Review (1), Predictive Coding es un término específico de la industria que se utiliza generalmente para describir un proceso de revisión asistida por tecnología que implica el uso de un algoritmo de aprendizaje automático para distinguir documentos relevantes de los no relevantes, basados en un tema codificación del experto en materia de un conjunto de documentos de formación. Esta definición de codificación predictiva proporciona una descripción de referencia que identifica una función concreta que un conjunto general de algoritmos de aprendizaje automático comúnmente aceptados puede utilizar en una revisión asistida por tecnología (TAR).

    Con la creciente conciencia y el uso de la codificación predictiva en el ámbito jurídico actual, parece que cada vez es más importante que los profesionales del descubrimiento electrónico tengan una comprensión general de las tecnologías que pueden implementarse en plataformas de descubrimiento electrónico para facilitar la codificación predictiva. de información almacenada electrónicamente. Este entendimiento general es esencial, ya que cada enfoque algorítmico potencial tiene ventajas y desventajas de eficiencia que pueden afectar la eficiencia y la eficacia de la codificación predictiva.

    Para ayudar a desarrollar esta comprensión general de las tecnologías de codificación predictiva y proporcionar a los proveedores de descubrimiento electrónico la oportunidad de compartir las tecnologías y protocolos que utilizan y con sus plataformas para lograr la codificación predictiva, las siguientes listas de trabajo de codificación predictiva tecnologías y protocolos TAR se proporcionan para su uso. También se incluyen listas de trabajo sobre flujos de trabajo y usos de codificación predictiva, ya que ayudan a definir cómo se implementan y utilizan las tecnologías de codificación predictiva y los protocolos TAR.

    Una lista de trabajo de tecnologías de codificación predictiva (1,2,3,4)

    A partir de expertos en descubrimiento electrónico basados en publicaciones profesionales y conversaciones personales, se proporciona a continuación una lista de trabajo no inclusiva de tecnologías de aprendizaje automático identificadas que se han aplicado o tienen el potencial de aplicarse a la disciplina de eDiscovery para facilitar codificación predictiva. Esta lista de trabajo está diseñada para proporcionar un punto de referencia para las tecnologías de codificación predictiva identificadas y, con el tiempo, puede incluir adiciones, ajustes y enmiendas basadas en los comentarios de expertos y organizaciones que aplican e implementan estas tecnologías generales en sus plataformas específicas de eDiscovery.

    Listado en orden alfabético

    Aprendizaje activo: proceso, típicamente iterativo, mediante el cual se utiliza un algoritmo para seleccionar documentos que deben revisarse para la formación basándose en una estrategia que ayude al algoritmo de clasificación a aprender de manera eficiente.

    Árbol de decisiones: método paso a paso para distinguir entre documentos relevantes y no relevantes, según la combinación de palabras (u otras características) que contengan. Un árbol de decisiones para identificar documentos relativos a derivados financieros podría determinar en primer lugar si un documento contiene o no la palabra «swap». Si lo hiciera, el árbol de decisiones podría determinar si el documento contenía o no «crédito», etc. Se puede crear un árbol de decisiones mediante ingeniería del conocimiento o aprendizaje automático.

    Clasificador de vecino más cercano (k-nn): algoritmo de clasificación que analiza los documentos de ejemplo k que son más similares (más cercanos) al documento que se está clasificando para determinar la mejor clasificación para el documento. Si k es demasiado pequeño (por ejemplo, k=1), puede ser extremadamente difícil lograr una retirada elevada.

    Análisis semántico latente (LSA): una representación matemática de documentos que trata las palabras altamente correlacionadas (es decir, palabras que tienden a aparecer en los mismos documentos) como, en cierto sentido, equivalentes o intercambiables. Esta equivalencia o intercambiabilidad pueden permitir que los algoritmos identifiquen documentos como conceptualmente similares incluso cuando no usan las mismas palabras (por ejemplo, porque los sinónimos pueden estar muy correlacionados), aunque también descarta información potencialmente útil y puede dar lugar a resultados indeseables causados por correlaciones falsas.

    Regresión logística: algoritmo de aprendizaje supervisado de última generación para el aprendizaje automático que estima la probabilidad de que un documento sea relevante, en función de las características que contiene. A diferencia del algoritmo Naïve Bayes, la regresión logística identifica características que discriminan entre documentos relevantes y no relevantes.

    Clasificador bayesiano ingenuo: sistema que examina la probabilidad de que cada palabra de un nuevo documento provenga de la distribución de palabras derivada de un documento adaptable capacitado o de documentos no responsivos entrenados. El sistema es ingenuo en el sentido de que supone que todas las palabras son independientes unas de otras.

    Red neuronal: una red neuronal artificial (ANN) es un modelo computacional. Se basa en la estructura y las funciones de las redes neuronales biológicas. Funciona como la forma en que el cerebro humano procesa la información. Incluye un gran número de unidades de procesamiento conectadas que trabajan conjuntamente para procesar información.

    Análisis semántico latente probabilístico (PLSA): Esto es similar en espíritu al LSA, pero utiliza un modelo probabilístico para lograr resultados que se espera que sean mejores.

    Bosques aleatorios: método de aprendizaje de conjuntos para clasificación, regresión y otras tareas, que funciona construyendo una multitud de árboles de decisiones en el tiempo de entrenamiento y emitiendo la clase que es el modo de las clases (clasificación) o predicción media (regresión) de los árboles individuales. Los bosques de decisión aleatoria corrigen el hábito de los árboles de decisión de adaptarse a su conjunto de entrenamiento.

    Comentarios sobre relevancia: proceso de aprendizaje activo en el que los documentos con mayor probabilidad de relevancia son codificados por un humano y se añaden al conjunto de formación.

    Support Vector Machine: Un enfoque matemático que busca encontrar una línea que separa los documentos receptivos de los que no responden de modo que, idealmente, todos los documentos responsivos estén en un lado de la línea y todos los que no responden estén del otro lado.

    Protocolos generales TAR (5,6,7,8,9,10)

    Además, estas tecnologías se emplean generalmente como parte de un protocolo TAR que determina cómo se utilizan las tecnologías. Algunos ejemplos de protocolos TAR incluyen:

    Listado en orden alfabético

    Continuous Active Learning® (CAL®): En CAL®, el método TAR desarrollado, utilizado y defendido por Maura R. Grossman y Gordon V. Cormack, tras el conjunto de formación inicial, el alumno selecciona repetidamente los siguientes documentos más probables de ser relevantes (que aún no se han considerado) para su revisión, codificación y formación, y sigue haciéndolo hasta que no encuentre más documentos relevantes. Por lo general, no hay una segunda revisión porque, en el momento en que el alumno deja de aprender, todos los documentos considerados relevantes por el alumno ya se han identificado y revisado manualmente.

    Método multimodal híbrido: enfoque desarrollado por el equipo de descubrimiento electrónico (Ralph Losey) que incluye todos los tipos de métodos de búsqueda, con la principal dependencia de la codificación predictiva y el uso de documentos de alto rango para la formación activa continua.

    Aprendizaje activo continuo escalable (S-CAL): La diferencia esencial entre S-CAL y CAL® es que, para S-CAL, solo se selecciona una muestra finita de documentos de cada lote sucesivo para etiquetar y el proceso continúa hasta que se agota la recopilación, o una gran muestra aleatoria de la colección. En conjunto, las muestras finitas forman una muestra estratificada de la población documental, de la que puede derivarse una estimación estadística de ρ.

    Aprendizaje activo simple (SAL): En los métodos SAL, después del conjunto de formación inicial, el alumno selecciona los documentos que debe revisar y codificar el profesor, y los utiliza como ejemplos de formación, y continúa seleccionando ejemplos hasta que esté suficientemente capacitado. Normalmente, los documentos que elige el alumno son aquellos sobre los que el alumno está menos seguro y, por lo tanto, de los que aprenderá más. Una vez lo suficientemente capacitado, el alumno se utiliza para etiquetar todos los documentos de la colección. Al igual que con SPL, los documentos etiquetados como relevantes se revisan manualmente en general.

    Aprendizaje pasivo simple (SPL): En los métodos de aprendizaje pasivo simple («SPL»), el profesor (es decir, operador humano) selecciona los documentos que se utilizarán como ejemplos de formación; el alumno recibe formación utilizando estos ejemplos y, una vez lo suficientemente capacitado, se utiliza para etiquetar cada documento de la colección como relevante o no, relevante. En general, los documentos etiquetados como relevantes por el alumno se vuelven a revisar manualmente. Esta revisión manual representa una pequeña fracción de la colección y, por lo tanto, una pequeña fracción del tiempo y el costo de una revisión manual exhaustiva.

    Flujos de trabajo TAR (11)

    Los flujos de trabajo TAR representan la aplicación práctica de tecnologías y protocolos de codificación predictiva para definir enfoques para completar tareas de codificación predictiva. Tres ejemplos de flujos de trabajo TAR incluyen:

    TAR 1.0 implica una fase de entrenamiento seguida de una fase de revisión con un conjunto de controles que se utiliza para determinar el punto óptimo en el que debe pasar de la formación a la revisión. El sistema ya no aprende una vez finalizada la fase de formación. El conjunto de controles es un conjunto aleatorio de documentos que se han revisado y marcado como relevantes o no relevantes. Los documentos del conjunto de controles no se utilizan para entrenar el sistema. Se utilizan para evaluar las predicciones del sistema para que se pueda terminar la formación cuando los beneficios de la formación adicional ya no superan el costo de la formación adicional. La formación puede realizarse con documentos seleccionados aleatoriamente, conocidos como Aprendizaje Pasivo Simple (SPL), o puede incluir documentos elegidos por el sistema para optimizar la eficiencia del aprendizaje, conocido como Aprendizaje Activo Simple (SAL).

    TAR 2.0 utiliza un enfoque denominado Aprendizaje Activo Continuo® (CAL®), lo que significa que no hay separación entre formación y revisión; el sistema continúa aprendiendo durante todo el tiempo. Si bien se pueden utilizar muchos enfoques para seleccionar documentos para su revisión, un componente importante de CAL® son muchas iteraciones de predecir qué documentos tienen más probabilidades de ser relevantes, revisarlos y actualizar las predicciones. A diferencia de TAR 1.0, TAR 2.0 tiende a ser muy eficiente incluso cuando la prevalencia es baja. Dado que no hay separación entre formación y revisión, TAR 2.0 no requiere un conjunto de controles. Generar un conjunto de controles puede implicar revisar un gran número (especialmente cuando la prevalencia es baja) de documentos no relevantes, por lo que es deseable evitar conjuntos de control.

    TAR 3.0 requiere un algoritmo de agrupación en clústeres conceptuales de alta calidad que forme clústeres de tamaño fijo con un enfoque estrecho en el espacio conceptual. Aplica la metodología TAR 2.0 únicamente a los centros de clúster, lo que garantiza que se revise un conjunto diverso de documentos potencialmente relevantes. Una vez que no se encuentran más centros de clúster relevantes, los centros de agrupación revisados se utilizan como documentos de capacitación para hacer predicciones para toda la población de documentos. No hay necesidad de un conjunto de control: el sistema está bien capacitado cuando no se encuentran centros de clúster más relevantes. El análisis de los centros de grupos temáticos examinados proporciona una estimación de la prevalencia y del número de documentos no pertinentes que se producirían si los documentos se elaboraran basándose únicamente en las predicciones sin revisión humana. El usuario puede decidir producir documentos (no identificados como potencialmente privilegiados) sin revisión, similar a SAL de TAR 1.0 (pero sin un conjunto de control), o puede decidir revisar documentos que tienen demasiado riesgo de no ser relevantes (que pueden utilizarse como formación adicional para el sistema, es decir, CAL®). El punto clave es que el usuario tiene la información que necesita para tomar una decisión sobre cómo proceder después de completar la revisión de los centros de clúster que probablemente sean relevantes, y nada de hecho antes de ese punto queda invalidado por la decisión (en comparación con comenzar con TAR 1.0, revisar un conjunto de controles, encontrar que las predicciones no son lo suficientemente buenas para producir documentos sin revisión y luego cambiar a TAR 2.0, lo que hace que el conjunto de controles sea prácticamente inútil).

    Usos TAR (12)

    Las tecnologías, protocolos y flujos de trabajo TAR se pueden utilizar eficazmente para ayudar a los profesionales de eDiscovery a llevar a cabo muchas tareas de descubrimiento de datos y descubrimiento legal. Nueve ejemplos comúnmente considerados de uso de TAR incluyen:

    Identificación de documentos relevantes

    Evaluación/investigación de casos tempranos

    Priorización para revisión

    Categorización (por problemas, por confidencialidad o privacidad)

    Revisión de privilegios

    Control de calidad y garantía de calidad

    Revisión de producciones entrantes

    Disposición y preparación de prueba

    Gobierno de la información y disposición de datos

    Información de la encuesta (13,14,15,16,17,18, 19, 20, 21)

    Referencias

    (1) Grossman, M. y Cormack, G. (2013). El glosario Grossman-Cormack de revisión asistida por tecnología. [ebook] Revisión de la ley de tribunales federales. Disponible en: http://www.fclr.org/fclr/articles/html/2010/grossman.pdf [Consultado el 31 de agosto de 2018].

    (2) Dimm, B. (2018). Experiencia en codificación predictiva. [correo electrónico].

    (3) Roitblat, H. (2013). Introducción a la codificación predictiva. [ebook] OrcaTec. Disponible a: 31 de agosto de 2018].

    (4) Tredennick, J. y Pickens, J. (2017). Aprendizaje profundo en el descubrimiento electrónico: superando el bombo. [online] Catalystsecure.com. Disponible a: 31 de agosto de 2018].

    (5) Grossman, M. y Cormack, G. (2017). Revisión asistida por tecnología en descubrimiento electrónico. [ebook] Disponible a: 31 de agosto de 2018].

    (6) Grossman, M. y Cormack, G. (2016). Aprendizaje activo continuo para TAR. [ebook] Derecho práctico. Disponible a: 31 de agosto de 2018].

    (7) Grossman, M. y Cormack, G. (2016). Escalabilidad del aprendizaje activo continuo para una clasificación fiable de textos de alta recuperación. [ebook] Disponible el: 3 de septiembre de 2018].

    (8) Losey, R., Sullivan, J. y Reichenberger, T. (2015). Equipo de descubrimiento electrónico de TREC 2015 Total Recall Track. [ebook] Disponible a partir del 1 de septiembre de 2018].

    (9) «CONTINUOUS ACTIVE LEARNING Marca comercial de Maura Grossman And Gordon V. Cormack — Número de registro 5876987 — Número de serie 86634255። Marcas comerciales de Justin». Trademarks.Justia.com, 2020, 12 de febrero de 2020].

    (10) «Marca comercial CAL de Maura Grossman y Gordon V. Cormack — Número de registro 5876988 — Número de serie 86634265። Marcas comerciales de Justin». Trademarks.Justia.com, 2020, 12 de febrero de 2020].

    (11) Dimm, B. (2016), TAR 3.0 Rendimiento. [online] Clustify Blog: descubrimiento electrónico, agrupación de documentos, codificación predictiva, recuperación de información y desarrollo de software. Disponible el: 18 de febrero de 2019].

    (12) Modelo de referencia de descubrimiento electrónico (EDRM) (2019). Pautas de revisión asistida por tecnología (TAR). [online] Disponible el: 18 de febrero de 2019].

    (13) Dimm, B. (2018). TAR, proporcionalidad y algoritmos malos (1-NN). [online] Clustify Blog: descubrimiento electrónico, agrupación de documentos, codificación predictiva, recuperación de información y desarrollo de software. Disponible a: 31 de agosto de 2018].

    (14) Robinson, R. (2013). Resultados en ejecución: Encuesta de implementación de proveedores de codificación predictiva de una sola pregunta. [online] ComplexDiscovery: información de eDiscovery. Disponible a: 31 de agosto de 2018].

    (15) Robinson, R. (2018). Una lista de ejecución: más de 100 proveedores de eDiscovery principales. [online] ComplexDiscovery: información de eDiscovery. Disponible a: 31 de agosto de 2018].

    (16) Robinson, R. (2018) Relativamente hablando: Tecnologías y protocolos de codificación predictiva Resultados de la encuesta [online] ComplexDiscovery: información de eDiscovery. Disponible el: 18 de febrero de 2019].

    (17) Robinson, R. (2019) ¿Aprendiendo activamente? Tecnologías y protocolos de codificación predictiva Resultados de la encuesta [online] ComplexDiscovery: información de eDiscovery. Disponible en: 22 de agosto de 2019]

    (18) Robinson, R. (2019) De las plataformas a los flujos de trabajo: Encuesta de protocolos y tecnologías de codificación predictiva — Resultados de otoño de 2019 [online] ComplexDiscovery: eDiscovery Information. Disponible el: 12 de febrero de 2020].

    (19) Robinson, R. (2020) ¿Es todo relativo? Encuesta sobre tecnologías y protocolos de codificación predictiva - Resultados de primavera [online] ComplexDiscovery: información de eDiscovery. Disponible en: [Consultado el 7 de agosto de 2020].

    (20) Robinson, R. (2020) ¿Lanzar una red más amplia? Encuesta sobre tecnologías y protocolos de codificación predictiva - Otoño de 2020 [online] ComplexDiscovery: información de eDiscovery. Disponible en: [Consultado el 5 de febrero de 2021].

    (21) Robinson, R. (2021) ¿Captura de clima frío? Encuesta sobre tecnologías y protocolos de codificación predictiva - Spring 2021 [online] ComplexDiscovery: información de eDiscovery. Disponible en: [Consultado el 8 de agosto de 2021].

    Haga clic aquí para proporcionar adiciones, correcciones y actualizaciones específicas.

    * Encuestados de la encuesta de codificación predictiva: seis encuestas

    Encuestados de la encuesta de codificación predictiva: seis encuestas

    Fuente: ComplexDiscovery

    ¿Inclinándose hacia El Plan Estratégico 2023-2025 de la CISA

    The purpose of the CISA Strategic Plan is to communicate the...

    ¿Mejora continua del riesgo? Resumen cibernético del tercer trimestre de Cowbell Cyber

    According to Manu Singh, director of risk engineering at Cowbell, "Every...

    ¿Un recurso integral de descubrimiento cibernético? Gráfico de políticas de ciberseguridad del DoD del CSIAC

    The Cyber Security and Information Systems Information Analysis Center (CSIAC) is...

    ¿Seguro cibernético que gira rápidamente? Resumen cibernético del segundo trimestre de Cowbell Cyber

    According to Isabelle Dumont, SVP of Marketing and Technology Partners at...

    ¿Respuesta reveladora? Nuix responde a la solicitud de información de ASX

    The following investor news update from Nuix shares a written response...

    ¿Informes reveladores? Nuix señala la especulación de la prensa

    According to a September 9, 2022 market release from Nuix, the...

    HayStackID® adquiere Business Intelligence Associates

    According to HaystackID CEO Hal Brooks, “BIA is a leader in...

    ¿Un gran negocio de software y nube? OpenText para adquirir Micro Focus

    According to OpenText CEO & CTO Mark J. Barrenechea, “We are...

    ¿En movimiento? Cinética del mercado de eDiscovery para 2022: cinco áreas de interés

    Recently ComplexDiscovery was provided an opportunity to share with the eDiscovery...

    ¿Confiar en el proceso? Datos de costos, gastos y tareas de procesamiento de eDiscovery 2021

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    ¿El resumen del año? Puntos de datos de costos, gastos y tareas de revisión de eDiscovery 2021

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    Una mirada 2021 a la colección de eDiscovery: puntos de datos de tareas, gastos y costos

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    Cinco excelentes lecturas sobre ciberseguridad, datos y descubrimiento legal para septiembre de 2022

    From privacy legislation and special masters to acquisitions and investigations, the...

    Cinco excelentes lecturas sobre descubrimiento cibernético, de datos y legal para agosto de 2022

    From AI and Big Data challenges to intriguing financial and investment...

    Cinco excelentes lecturas sobre descubrimiento cibernético, de datos y legal para julio de 2022

    From lurking business undercurrents to captivating deepfake developments, the July 2022...

    Cinco excelentes lecturas sobre descubrimiento cibernético, de datos y legal para junio de 2022

    From eDiscovery ecosystem players and pricing to data breach investigations and...