Sun. Sep 25th, 2022
    en flag
    nl flag
    et flag
    fi flag
    fr flag
    de flag
    he flag
    ja flag
    lv flag
    pl flag
    pt flag
    ru flag
    es flag

    Note de l'éditeur : Il s'agit de la septième enquête semestrielle sur les technologies et protocoles de codage prédictif menée par ComplexDiscovery. Les six premières enquêtes ont fourni des commentaires détaillés d'environ 384* professionnels du droit, des affaires et de la technologie sur l'utilisation de technologies spécifiques d'apprentissage automatique dans le codage prédictif et ont également mis en évidence l'utilisation de ces technologies d'apprentissage automatique dans le cadre d'un examen assisté par la technologie. protocoles. Cette itération de l'enquête continue de se concentrer sur les technologies de codage prédictif, les protocoles, les flux de travail et les utilisations dans l'écosystème eDiscovery. À l'origine, composée de quatre questions fondamentales, l'enquête comprenait à partir de l'automne 2020 une nouvelle question sur la prévalence de l'utilisation prédictive du codage dans le cadre des workflows eDiscovery.

    Technologies et protocoles de codage prédictif (enquête)

    Une enquête sur cinq questions

    Vous trouverez ci-dessous un lien vers une simple enquête à cinq questions conçue pour capturer l'application actuelle des technologies, des protocoles, des flux de travail et des utilisations du codage prédictif dans l'écosystème eDiscovery.

    Les professionnels du droit, des technologies de l'information et des affaires impliqués dans des activités organisationnelles impliquant l'utilisation du codage prédictif sont encouragés à compléter la courte enquête de cinq questions.

    Les résultats de l'enquête (à l'exclusion des informations de contact du répondeur) seront agrégés et publiés sur le blog ComplexDiscovery pour utilisation par la communauté eDiscovery.

    Technologies et protocoles de codage prédictif (fiche d'information sur l'enquête)

    Tel que défini dans The Grossman-Cormack Glossary of Technology Assisted Review (1), Predictive Coding est un terme spécifique à l'industrie généralement utilisé pour décrire un processus d'examen assisté par technologie impliquant l'utilisation d'un algorithme d'apprentissage automatique pour distinguer les documents pertinents des documents non pertinents, en fonction d'un sujet. codage par un expert en matière d'un ensemble de documents de formation. Cette définition du codage prédictif fournit une description de base qui identifie une fonction particulière qu'un ensemble général d'algorithmes d'apprentissage automatique couramment acceptés peut utiliser dans un examen assisté par technologie (TAR).

    Avec la prise de conscience et l'utilisation croissantes du codage prédictif dans le domaine juridique aujourd'hui, il apparaît qu'il est de plus en plus important pour les professionnels de la découverte électronique d'avoir une compréhension générale des technologies qui peuvent être mises en œuvre dans les plateformes de découverte électronique afin de faciliter le codage prédictif. d'informations stockées électroniquement. Cette compréhension générale est essentielle car chaque approche algorithmique potentielle présente des avantages et des inconvénients en matière d'efficacité qui peuvent avoir un impact sur l'efficacité et l'efficacité du codage prédictif.

    Afin d'aider à développer cette compréhension générale des technologies de codage prédictif et de permettre aux fournisseurs de découverte électronique de partager les technologies et protocoles qu'ils utilisent dans et avec leurs plates-formes pour réaliser un codage prédictif, les listes de travail suivantes sur le codage prédictif : les technologies et les protocoles TAR sont fournis pour votre utilisation. Des listes de travail sur les flux de travail et les utilisations de codage prédictif sont également incluses pour votre considération, car elles aident à définir comment les technologies de codage prédictif et les protocoles TAR sont implémentés et utilisés.

    Liste de travail des technologies de codage prédictif (1,2,3,4)

    Regroupée à partir d'experts de la découverte électronique basée sur des publications professionnelles et des conversations personnelles, fournie ci-dessous est une liste de travail non exhaustive des technologies d'apprentissage automatique identifiées qui ont été appliquées ou qui ont le potentiel d'être appliquées à la discipline de la découverte électronique pour faciliter codage prédictif. Cette liste de travail est conçue pour fournir un point de référence pour les technologies de codage prédictif identifiées et peut inclure au fil du temps des ajouts, des ajustements et des modifications basés sur les commentaires des experts et des organisations appliquant et implémentant ces technologies classiques sur leurs plateformes de découverte électronique spécifiques.

    Liste par ordre alphabétique

    Apprentissage actif : processus généralement itératif, par lequel un algorithme est utilisé pour sélectionner des documents devant être examinés pour la formation en fonction d'une stratégie visant à aider l'algorithme de classification à apprendre efficacement.

    Arbre de décision : Méthode étape par étape permettant de distinguer les documents pertinents et non pertinents, en fonction de la combinaison de mots (ou d'autres caractéristiques) qu'ils contiennent. Un arbre de décision permettant d'identifier les documents relatifs aux dérivés financiers peut d'abord déterminer si un document contient ou non le mot « swap ». Si c'est le cas, l'arbre de décision pourrait alors déterminer si le document contenait ou non un « crédit », etc. Un arbre de décision peut être créé soit par l'ingénierie des connaissances, soit par l'apprentissage automatique.

    Classificateur de voisin le plus proche (k-nn) : algorithme de classification qui analyse les k exemples de documents les plus similaires (les plus proches) au document classifié afin de déterminer la meilleure classification pour le document. Si k est trop petit (par exemple, k=1), il peut être extrêmement difficile d'obtenir un rappel élevé.

    Analyse sémantique latente (LSA) : représentation mathématique de documents qui traite les mots hautement corrélés (c'est-à-dire les mots qui ont tendance à apparaître dans les mêmes documents) comme étant, dans un sens, équivalents ou interchangeables. Cette équivalence ou cette interchangeabilité peut permettre aux algorithmes d'identifier les documents comme étant conceptuellement similaires, même s'ils n'utilisent pas les mêmes mots (par exemple, parce que les synonymes peuvent être fortement corrélés), bien qu'ils suppriment également certaines informations potentiellement utiles et peuvent entraîner des résultats indésirables causés par corrélations fausses.

    Régression logistique : algorithme d'apprentissage supervisé de pointe pour l'apprentissage automatique qui estime la probabilité qu'un document soit pertinent, en fonction des fonctionnalités qu'il contient. Contrairement à l'algorithme Naïve Bayes, Logistic Regression identifie les caractéristiques qui distinguent les documents pertinents et non pertinents.

    Classificateur bayésien naïve : système qui examine la probabilité que chaque mot d'un nouveau document provienne de la distribution de mots dérivée d'un document réactif formé ou de documents formés non réactifs. Le système est naïf dans le sens où il suppose que tous les mots sont indépendants les uns des autres.

    Neural Network : An Artificial Neural Network (ANN) est un modèle de calcul. Il est basé sur la structure et les fonctions des réseaux neuronaux biologiques. Il fonctionne comme la façon dont le cerveau humain traite l'information. Il comprend un grand nombre d'unités de traitement connectées qui travaillent ensemble pour traiter les informations.

    Analyse sémantique latente probabiliste (PLSA) : Cette analyse est similaire à celle de la LSA, mais elle utilise un modèle probabiliste pour obtenir des résultats qui devraient être meilleurs.

    Forêts aléatoires : méthode d'apprentissage d'ensemble pour la classification, la régression et d'autres tâches, qui fonctionne en construisant une multitude d'arbres de décision au moment de l'entraînement et en sortant la classe qui est le mode des classes (classification) ou la prédiction moyenne (régression) des arbres individuels. Les forêts de décision aléatoires corrigent l'habitude des arbres décisionnels de se suradapter à leur ensemble d'entraînement.

    Commentaires sur la pertinence : processus d'apprentissage actif dans lequel les documents présentant la plus grande probabilité de pertinence sont codés par un humain et ajoutés à l'ensemble de formation.

    Support Vector Machine : Une approche mathématique qui cherche à trouver une ligne qui sépare les documents réactifs des documents non réactifs afin que, idéalement, tous les documents réactifs soient d'un côté de la ligne et que tous les documents non réactifs soient de l'autre côté.

    Protocoles TAR généraux (5,6,7,8,9,10)

    De plus, ces technologies sont généralement utilisées dans le cadre d'un protocole TAR qui détermine comment les technologies sont utilisées. Voici des exemples de protocoles TAR :

    Liste par ordre alphabétique

    Continuous Active Learning® (CAL®) : Dans CAL®, la méthode TAR développée, utilisée et préconisée par Maura R. Grossman et Gordon V. Cormack, après la formation initiale, l'apprenant sélectionne à plusieurs reprises les documents les plus susceptibles d'être pertinents (qui n'ont pas encore été pris en compte) pour examen, codage et formation, et continue de le faire jusqu'à ce qu'il ne trouve plus de documents pertinents. Il n'y a généralement pas de deuxième examen car, au moment où l'apprenant cesse d'apprendre, tous les documents jugés pertinents par l'apprenant ont déjà été identifiés et examinés manuellement.

    Méthode multimodale hybride : Une approche développée par l'équipe e-Discovery (Ralph Losey) qui inclut tous les types de méthodes de recherche, en se fondant principalement sur le codage prédictif et l'utilisation de documents de haut rang pour la formation active continue.

    Scalable Continuous Active Learning (S-CAL) : La différence essentielle entre S-CAL et CAL® est que pour S-CAL, seul un échantillon fini de documents de chaque lot successif est sélectionné pour l'étiquetage, et le processus se poursuit jusqu'à épuisement de la collecte, ou d'un grand échantillon aléatoire de la collection. Ensemble, les échantillons finis forment un échantillon stratifié de la population de documents, à partir duquel une estimation statistique de ρ peut être dérivée.

    Simple Active Learning (SAL) : Dans les méthodes SAL, après l'ensemble de formation initiale, l'apprenant sélectionne les documents à examiner et coder par l'enseignant, puis utilisés comme exemples de formation, et continue de sélectionner des exemples jusqu'à ce qu'il soit suffisamment formé. En règle générale, les documents que l'apprenant choisit sont ceux dont l'apprenant est le moins certain et donc d'où il apprendra le plus. Une fois suffisamment formé, l'apprenant est ensuite utilisé pour étiqueter chaque document de la collection. Comme pour SPL, les documents étiquetés comme pertinents sont généralement réexaminés manuellement.

    Apprentissage passif simple (SPL) : Dans les méthodes d'apprentissage passif simple (« SPL »), l'enseignant (c'est-à-dire l'opérateur humain) sélectionne les documents à utiliser comme exemples de formation ; l'apprenant est formé à l'aide de ces exemples et, une fois suffisamment formé, il est utilisé pour étiqueter chaque document de la collection comme pertinent ou non, pertinent. En général, les documents étiquetés comme pertinents par l'apprenant sont réexaminés manuellement. Cette révision manuelle représente une petite fraction de la collection, et donc une petite fraction du temps et du coût d'une révision manuelle exhaustive.

    Workflows TAR (11)

    Les workflows TAR représentent l'application pratique de technologies et de protocoles de codage prédictif pour définir des approches permettant d'effectuer des tâches de codage prédictif. Voici trois exemples de flux de travail TAR :

    TAR 1.0 implique une phase d'entraînement suivie d'une phase de révision, avec un ensemble de contrôle utilisé pour déterminer le point optimal lorsque vous devez passer de l'entraînement à l'examen. Le système n'apprend plus une fois la phase de formation terminée. Le jeu de contrôles est un ensemble aléatoire de documents qui ont été examinés et marqués comme pertinents ou non pertinents. Les documents du jeu de commandes ne sont pas utilisés pour entraîner le système. Ils sont utilisés pour évaluer les prévisions du système afin que la formation puisse être interrompue lorsque les avantages d'une formation supplémentaire ne l'emportent plus sur le coût d'une formation supplémentaire. La formation peut se faire avec des documents sélectionnés au hasard, connus sous le nom de Simple Passive Learning (SPL), ou elle peut impliquer des documents choisis par le système pour optimiser l'efficacité de l'apprentissage, connus sous le nom de Simple Active Learning (SAL).

    TAR 2.0 utilise une approche appelée Continuous Active Learning® (CAL®), ce qui signifie qu'il n'y a pas de séparation entre la formation et l'examen. Le système continue d'apprendre tout au long. Bien que de nombreuses approches puissent être utilisées pour sélectionner des documents à examiner, une composante importante de CAL® réside dans de nombreuses itérations de prédiction des documents les plus susceptibles d'être pertinents, de les revoir et de mettre à jour les prévisions. Contrairement à TAR 1.0, TAR 2.0 a tendance à être très efficace même lorsque la prévalence est faible. Comme il n'y a pas de séparation entre la formation et l'examen, TAR 2.0 ne nécessite pas de jeu de contrôle. La génération d'un ensemble de contrôles peut impliquer la révision d'un grand nombre (surtout lorsque la prévalence est faible) de documents non pertinents. Il est donc souhaitable d'éviter les jeux de contrôles.

    TAR 3.0 nécessite un algorithme de clustering conceptuel de haute qualité qui forme des clusters de taille fixe étroitement ciblés dans l'espace conceptuel. Il applique la méthodologie TAR 2.0 uniquement aux centres de cluster, ce qui garantit la révision d'un ensemble diversifié de documents potentiellement pertinents. Une fois qu'aucun centre de cluster pertinent n'est trouvé, les centres de grappes examinés sont utilisés comme documents de formation pour faire des prédictions pour l'ensemble de la population de documents. Il n'est pas nécessaire de disposer d'un ensemble de contrôle : le système est bien formé lorsqu'aucun centre de cluster pertinent supplémentaire n'est trouvé. L'analyse des centres de grappes examinés fournit une estimation de la prévalence et du nombre de documents non pertinents qui seraient produits si des documents étaient produits uniquement sur la base des prédictions sans examen humain. L'utilisateur peut décider de produire des documents (non identifiés comme potentiellement privilégiés) sans révision, semblable à SAL de TAR 1.0 (mais sans jeu de contrôle), ou il peut décider d'examiner les documents qui présentent trop de risques de non-pertinence (qui peuvent être utilisés comme formation supplémentaire pour le système, c'est-à-dire CAL®). Le point clé est que l'utilisateur dispose des informations dont il a besoin pour prendre une décision sur la façon de procéder après avoir terminé l'examen des centres de cluster susceptibles d'être pertinents, et que rien n'est fait avant que ce point ne soit invalidé par la décision (comparé à partir de TAR 1.0, examen d'un ensemble de contrôles, recherche que les prédictions ne sont pas suffisantes pour produire des documents sans révision, puis passer à TAR 2.0, ce qui rend le jeu de contrôle pratiquement inutile).

    Utilisations TAR (12)

    Les technologies, protocoles et workflows TAR peuvent être utilisés efficacement pour aider les professionnels de la découverte électronique à accomplir de nombreuses tâches de découverte de données et de découverte légale. Neuf exemples couramment considérés d'utilisation du TAR sont les suivants :

    Identification des documents pertinents

    Évaluation et enquête précoce des cas

    Priorisation pour examen

    Catégorisation (par problème, pour la confidentialité ou la confidentialité)

    Revue Privilege

    Contrôle de la qualité et assurance qualité

    Avis sur Incoming Productions

    Disposition/préparation à l'essai

    Gouvernance de l'information et disposition des données

    Renseignements sur l'enquête (13,14,15,16,17,18, 19, 20, 21)

    Références

    (1) Grossman, M. et Cormack, G. (2013). Glossaire de l'examen assisté par la technologie Grossman-Cormack. [ebook] Revue du droit des Cours fédérales. Disponible à l'adresse suivante : http://www.fclr.org/fclr/articles/html/2010/grossman.pdf [Consulté le 31 août 2018].

    (2) Dimm, B. (2018). Expertise en codage prédictif. [e-mail].

    (3) Roitblat, H. (2013). Introduction au codage prédictif. [ebook] OrcaTec. Disponible au : 31 août 2018].

    (4) Tredennick, J. et Pickens, J. (2017). Deep Learning dans E-Discovery : Passer le battage médiatique. [en ligne] CatalystSecure.com. Disponible au : 31 août 2018].

    (5) Grossman, M. et Cormack, G. (2017). Examen assisté par la technologie dans la découverte électronique. [ebook] Disponible au : 31 août 2018].

    (6) Grossman, M. et Cormack, G. (2016). Apprentissage actif continu pour TAR. [ebook] Droit pratique. Disponible au : 31 août 2018].

    (7) Grossman, M. et Cormack, G. (2016). Évolutivité de l'apprentissage actif continu pour une classification fiable des textes à rappel élevé. [ebook] Disponible au : 3 septembre 2018].

    (8) Losey, R., Sullivan, J. et Reichenberger, T. (2015), équipe de découverte électronique à la piste de rappel totale TREC 2015. [ebook] Disponible au : 1er septembre 2018].

    (9) « CONTINUOUS ACTIVE LEARNING Marque déposée de Maura Grossman And Gordon V. Cormack — Numéro d'enregistrement 5876987 — Numéro de série 86634255። Justia Trademarks ». Trademarks.Justia.com, 2020, 12 février 2020].

    (10) « Marque de commerce CAL de Maura Grossman et Gordon V. Cormack — Numéro d'enregistrement 5876988 — Numéro de série 86634265። Justia Trademarks ». Trademarks.Justia.com, 2020, 12 février 2020].

    (11) Dimm, B. (2016), Performances TAR 3.0. [online] Blog Clustify : découverte électronique, clustering de documents, codage prédictif, récupération d'informations et développement de logiciels. Disponible au : 18 févr. 2019].

    (12) Modèle de référence de découverte électronique (EDRM) (2019). Directives relatives à la révision assistée par la technologie (TAR) [en ligne] Disponible au : 18 février 2019].

    (13) Dimm, B. (2018). TAR, proportionnalité et mauvais algorithmes (1-NN). [online] Blog Clustify : découverte électronique, clustering de documents, codage prédictif, récupération d'informations et développement de logiciels. Disponible au : 31 août 2018].

    (14) Robinson, R. (2013). Résultats en cours : enquête sur la mise en œuvre du fournisseur d'une question de codage prédictif. [en ligne] ComplexDiscovery : informations de découverte électronique. Disponible au : 31 août 2018].

    (15) Robinson, R. (2018). Une liste de course : plus de 100 meilleurs fournisseurs de découverte électronique. [en ligne] ComplexDiscovery : informations de découverte électronique. Disponible au : 31 août 2018].

    (16) Robinson, R. (2018) Relativement parlant : résultats de l'enquête sur les technologies et protocoles de codage prédictif [en ligne] ComplexDiscovery : eDiscovery Information. Disponible au : 18 févr. 2019].

    (17) Robinson, R. (2019) Apprendre activement ? Résultats de l'enquête sur les technologies et protocoles de codage prédictif [en ligne] ComplexDiscovery : eDiscovery Information. Disponible au : 22 août 2019]

    (18) Robinson, R. (2019) Des plates-formes aux flux de travail : enquête sur les technologies et protocoles de codage prédictif — Résultats de l'automne 2019 [en ligne] ComplexDiscovery : eDiscovery Information. Disponible au : 12 février 2020].

    (19) Robinson, R. (2020) Est-ce que tout est relatif ? Enquête sur les technologies et protocoles de codage prédictif - Résultats de printemps [en ligne] ComplexDiscovery : eDiscovery Information. Disponible à l'adresse suivante : [Consulté le 7 août 2020].

    (20) Robinson, R. (2020) Un filet plus large ? Enquête sur les technologies et protocoles de codage prédictif - Automne 2020 [en ligne] ComplexDiscovery : eDiscovery Information. Disponible à l'adresse suivante : [Consulté le 5 février 2021].

    (21) Robinson, R. (2021) Les prises par temps froid ? Enquête sur les technologies et protocoles de codage prédictif - Printemps 2021 [en ligne] ComplexDiscovery : eDiscovery Information. Disponible à l'adresse suivante : [Consulté le 8 août 2021].

    Cliquez ici pour fournir des ajouts, des corrections et des mises à jour spécifiques.

    * Répondants à l'enquête de codage prédictif : six sondages

    Répondants à l'enquête sur le codage prédictif — Six enquêtes

    Source : ComplexDiscovery

    Penché en avant ? Le plan stratégique 2023-2025 de la CISA

    The purpose of the CISA Strategic Plan is to communicate the...

    Une amélioration continue des risques ? Tour d'horizon du troisième trimestre de Cowbell Cyber

    According to Manu Singh, director of risk engineering at Cowbell, "Every...

    Une ressource complète sur la cyberdécouverte ? Le tableau des politiques de cybersécurité du DoD du CSIAC

    The Cyber Security and Information Systems Information Analysis Center (CSIAC) is...

    Une cyberassurance qui évolue rapidement ? Tour d'horizon cybernétique du deuxième trimestre de Cowbell Cyber

    According to Isabelle Dumont, SVP of Marketing and Technology Partners at...

    Réponse révélatrice ? Nuix répond à la demande d'informations de l'ASX

    The following investor news update from Nuix shares a written response...

    Des rapports révélateurs ? Spéculation presse Nuix Notes

    According to a September 9, 2022 market release from Nuix, the...

    HayStackID® acquiert Business Intelligence Associates

    According to HaystackID CEO Hal Brooks, “BIA is a leader in...

    Une seule grande entreprise de logiciels et de cloud ? OpenText va acquérir Micro Focus

    According to OpenText CEO & CTO Mark J. Barrenechea, “We are...

    En mouvement ? Cinétique du marché de l'eDiscovery 2022 : cinq domaines d'intérêt

    Recently ComplexDiscovery was provided an opportunity to share with the eDiscovery...

    Vous faites confiance au processus ? Données sur les tâches, les dépenses et les coûts de traitement de l'eDiscovery 2021

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    Bilan de l'année ? Points de données sur les tâches, les dépenses et les coûts de révision de l'eDiscovery 2021

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    Regard sur la collection eDiscovery en 2021 : points de données sur les tâches, les dépenses et les coûts

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    Cinq excellentes lectures sur la cybersécurité, les données et les découvertes juridiques pour septembre 2022

    From privacy legislation and special masters to acquisitions and investigations, the...

    Cinq bonnes lectures sur la cybernétique, les données et la découverte sur demande juridique pour août 2022

    From AI and Big Data challenges to intriguing financial and investment...

    Cinq bonnes lectures sur la cybernétique, les données et la découverte sur demande juridique pour juillet 2022

    From lurking business undercurrents to captivating deepfake developments, the July 2022...

    Cinq lectures intéressantes sur le cybernétique, les données et la découverte juridique pour juin 2022

    From eDiscovery ecosystem players and pricing to data breach investigations and...