Sun. Sep 25th, 2022
    en flag
    nl flag
    et flag
    fi flag
    fr flag
    de flag
    he flag
    ja flag
    lv flag
    pl flag
    pt flag
    ru flag
    es flag

    Opmerking van de redacteur: Dit is de zevende halfjaarlijkse enquête van Predictive Coding Technologies and Protocols, uitgevoerd door ComplexDiscovery. De eerste zes enquêtes gaven gedetailleerde feedback van ongeveer 384* juridische, zakelijke en technologische professionals over het gebruik van specifieke machine learningtechnologieën bij predictive codering en benadrukte ook het gebruik van die machine learningtechnologieën als onderdeel van een voorbeeld van door technologie ondersteunde beoordeling. protocollen. Deze iteratie van de enquête blijft zich richten op voorspellende coderingstechnologieën, protocollen, workflows en toepassingen in het eDiscovery-ecosysteem. Oorspronkelijk bestond de enquête uit vier kernvragen en vanaf het najaar van 2020 bevatte de enquête één nieuwe vraag over de prevalentie van voorspellend coderingsgebruik als onderdeel van eDiscovery-workflows.

    Technologieën en protocollen voor voorspellende codering (enquête)

    Een enquête met vijf vragen

    Hieronder vindt u een link naar een eenvoudige enquête met vijf vragen die is ontworpen om de huidige toepassing van technologieën, protocollen, workflows en toepassingen van voorspellende codering in het eDiscovery-ecosysteem vast te leggen.

    Juridische, informatietechnologie en zakelijke professionals die betrokken zijn bij organisatorische activiteiten waarbij voorspellende codering wordt gebruikt, worden aangemoedigd om de korte enquête met vijf vragen af te ronden.

    De resultaten van de enquête (met uitzondering van contactgegevens van responders) worden samengevoegd en gepubliceerd op de blog ComplexDiscovery voor gebruik door de eDiscovery-community.

    Technologieën en protocollen voor voorspellende codering (Survey Backgrounder)

    Zoals gedefinieerd in The Grossman-Cormack Glossary of Technology-Assisted Review (1), is Predictive Coding een branchespecifieke term die algemeen wordt gebruikt om een door technologie ondersteund beoordelingsproces te beschrijven waarbij gebruik wordt gemaakt van een algoritme voor machine learning om relevante en niet-relevante documenten te onderscheiden, gebaseerd op een onderwerp de codering van een trainingsset documenten door experts. Deze definitie van voorspellende codering biedt een basislijnbeschrijving die één specifieke functie identificeert die een algemene set algemeen geaccepteerde algoritmen voor machine learning kan gebruiken in een technology-assisted review (TAR).

    Met het toenemende bewustzijn en het gebruik van voorspellende codering in de juridische arena van vandaag, lijkt het steeds belangrijker voor professionals in elektronische ontdekking om een algemeen begrip te hebben van de technologieën die kunnen worden geïmplementeerd in elektronische detectieplatforms om voorspellende codering te vergemakkelijken. van elektronisch opgeslagen informatie. Dit algemene begrip is essentieel, omdat elke potentiële algoritmische aanpak voordelen en nadelen heeft die van invloed kunnen zijn op de efficiëntie en werkzaamheid van voorspellende codering.

    Om te helpen bij het ontwikkelen van dit algemene begrip van voorspellende coderingstechnologieën en om aanbieders van elektronische ontdekking de mogelijkheid te bieden om de technologieën en protocollen die ze gebruiken op en met hun platforms te delen om voorspellende codering tot stand te brengen, zijn de volgende werklijsten met voorspellende codering: technologieën en TAR-protocollen zijn beschikbaar voor uw gebruik. Werklijsten over workflows en toepassingen voor voorspellende codering worden ook bij u opgenomen, omdat ze helpen bepalen hoe de voorspellende coderingstechnologieën en TAR-protocollen worden geïmplementeerd en gebruikt.

    Een werklijst met voorspellende coderingstechnologieën (1,2,3,4)

    Samengevoegd van experts op basis van elektronische ontdekking op basis van professionele publicaties en persoonlijke gesprekken, is hieronder een niet-allesomvattende werklijst van geïdentificeerde machine learningtechnologieën die zijn toegepast of kunnen worden toegepast op de discipline van eDiscovery om het mogelijk te maken voorspellende codering. Deze werklijst is ontworpen om een referentiepunt te bieden voor geïdentificeerde voorspellende coderingstechnologieën en kan na verloop van tijd toevoegingen, aanpassingen en wijzigingen bevatten op basis van feedback van experts en organisaties die deze mainstream technologieën toepassen en implementeren in hun specifieke eDiscovery-platforms.

    Vermeld in alfabetische volgorde

    Actief leren: een proces dat doorgaans iteratief is, waarbij een algoritme wordt gebruikt om documenten te selecteren die beoordeeld moeten worden voor training op basis van een strategie om het classificatiealgoritme efficiënt te leren.

    Decision Tree: Een stapsgewijze methode om onderscheid te maken tussen relevante en niet-relevante documenten, afhankelijk van de combinatie van woorden (of andere kenmerken) die ze bevatten. Een Decision Tree om documenten te identificeren die betrekking hebben op financiële derivaten, kan eerst bepalen of een document het woord 'swap' bevat of niet. Als dat zo is, kan de Decision Tree dan bepalen of het document 'krediet' bevatte, enzovoort. Een Decision Tree kan worden gemaakt door middel van kennistechniek of machine learning.

    K-dichtstbijzijnde Neighbor Classifier (K-nn): Een classificatiealgoritme dat de k-voorbeelddocumenten analyseert die het meest lijken (het dichtst bij) het document dat wordt geclassificeerd om de beste classificatie voor het document te bepalen. Als k te klein is (bijvoorbeeld k=1), kan het extreem moeilijk zijn om een hoge terugroephouding te bereiken.

    Latente Semantische Analyse (LSA): Een wiskundige weergave van documenten die sterk gecorreleerde woorden (d.w.z. woorden die in dezelfde documenten voorkomen) behandelt als zijnde, in zekere zin, gelijkwaardig of uitwisselbaar. Deze equivalentie of uitwisselbaarheid kan algoritmen in staat stellen documenten te identificeren als conceptueel vergelijkbaar, zelfs als ze niet dezelfde woorden gebruiken (bijvoorbeeld omdat synoniemen sterk gecorreleerd kunnen zijn), hoewel het ook mogelijk nuttige informatie weggooit en kan leiden tot ongewenste resultaten veroorzaakt door onjuiste correlaties.

    Logistieke regressie: Een ultramodern algoritme voor begeleid leren voor machine learning dat de kans inschat dat een document relevant is, op basis van de functies die het bevat. In tegenstelling tot het Naïve Bayes, algoritme, identificeert Logistic Regression kenmerken die onderscheid maken tussen relevante en niet-relevante documenten.

    Naïeve Bayesian Classifier: Een systeem dat de waarschijnlijkheid onderzoekt dat elk woord in een nieuw document afkomstig is van de woordverdeling die is afgeleid van een getraind responsief document of getrainde niet-responsieve documenten. Het systeem is naïef in die zin dat het veronderstelt dat alle woorden onafhankelijk van elkaar zijn.

    Neural Network: Een Artificial Neural Network (ANN) is een rekenmodel. Het is gebaseerd op de structuur en functies van biologische neurale netwerken. Het werkt zoals de manier waarop het menselijk brein informatie verwerkt. Het omvat een groot aantal gekoppelde verwerkingseenheden die samenwerken om informatie te verwerken.

    Probabilistic Latent Semantic Analysis (PLSA): Dit is qua geest vergelijkbaar met LSA, maar het gebruikt een probabilistisch model om resultaten te behalen die naar verwachting beter zullen zijn.

    Random Forests: Een ensemble leermethode voor classificatie, regressie en andere taken, die werken door een veelvoud aan beslissingsbomen te bouwen tijdens de training en de klas uit te voeren die de modus is van de klassen (classificatie) of gemiddelde voorspelling (regressie) van de individuele bomen. Willekeurige beslissingsbossen corrigeren voor de gewoonte van beslissingsbomen om te passen aan hun trainingsset.

    Relevantie Feedback: Een actief leerproces waarbij de documenten met de hoogste waarschijnlijkheid van relevantie door een mens worden gecodeerd en aan de trainingsset worden toegevoegd.

    Support Vector Machine: Een wiskundige benadering die een lijn probeert te vinden die responsief scheidt van niet-responsieve documenten, zodat, idealiter, alle responsieve documenten aan de ene kant van de regel staan en alle niet-responsieve documenten aan de andere kant staan.

    Algemene TAR-protocollen (5,6,7,8,9,10)

    Bovendien worden deze technologieën over het algemeen gebruikt als onderdeel van een TAR-protocol dat bepaalt hoe de technologieën worden gebruikt. Voorbeelden van TAR-protocollen zijn:

    Vermeld in alfabetische volgorde

    Continuous Active Learning® (CAL®): In CAL® selecteert de TAR-methode die werd ontwikkeld, gebruikt en bepleit door Maura R. Grossman en Gordon V. Cormack, na de initiële trainingsset, herhaaldelijk de volgende meest waarschijnlijke relevante documenten (die nog niet zijn overwogen) voor beoordeling, codering en training, en blijft dat doen totdat er geen meer relevante documenten meer kunnen worden gevonden. Over het algemeen is er geen tweede beoordeling, omdat, tegen de tijd dat de cursist stopt met leren, alle documenten die relevant worden geacht door de cursist al geïdentificeerd en handmatig worden beoordeeld.

    Hybride multimodale methode: Een aanpak ontwikkeld door het e-Discovery Team (Ralph Losey) die alle soorten zoekmethoden omvat, waarbij primair afhankelijk is van voorspellende codering en het gebruik van hooggeplaatste documenten voor continue actieve training.

    Scalable Continuous Active Learning (S-CAL): Het essentiële verschil tussen S-CAL en CAL® is dat voor S-CAL slechts een eindige steekproef van documenten uit elke opeenvolgende batch wordt geselecteerd om te labelen en dat het proces doorgaat totdat de verzameling, of een groot willekeurig voorbeeld van de verzameling, is uitgeput. Samen vormen de eindige monsters een gelaagde steekproef van de documentpopulatie, waaruit een statistische schatting van ρ kan worden afgeleid.

    Simple Active Learning (SAL): In SAL-methoden selecteert de cursist na de initiële trainingsset de documenten die door de docent moeten worden beoordeeld en gecodeerd en gebruikt als trainingsvoorbeelden, en blijft hij voorbeelden selecteren totdat deze voldoende is opgeleid. Doorgaans zijn de documenten die de cursist kiest, die waarover de cursist het minst zeker is, en daarom zal hij het meest leren. Eenmaal voldoende getraind, wordt de cursist vervolgens gebruikt om elk document in de collectie te labelen. Net als bij SPL worden de documenten die als relevant zijn gelabeld over het algemeen handmatig opnieuw beoordeeld.

    Simple Passief Learning (SPL): Bij eenvoudige passieve leermethoden („SPL”) selecteert de leraar (d.w.z. menselijke operator) de documenten die als trainingsvoorbeelden moeten worden gebruikt; de leerling wordt getraind aan de hand van deze voorbeelden en wordt hij gebruikt om elk document in de collectie als relevant of niet-getraind te labelen. relevant. Over het algemeen worden de documenten die door de cursist als relevant zijn aangemerkt, handmatig opnieuw beoordeeld. Deze handmatige beoordeling vertegenwoordigt een klein deel van de collectie, en dus een klein deel van de tijd en kosten van een uitgebreide handmatige review.

    TAR-workflows (11)

    TAR-workflows zijn de praktische toepassing van voorspellende coderingstechnologieën en protocollen om benaderingen te definiëren voor het voltooien van voorspellende coderingstaken Drie voorbeelden van TAR-workflows zijn:

    TAR 1.0 omvat een trainingsfase gevolgd door een beoordelingsfase waarbij een controleset wordt gebruikt om het optimale punt te bepalen wanneer u van training naar beoordeling moet overschakelen. Het systeem leert niet meer als de trainingsfase is voltooid. De besturingsset is een willekeurige set documenten die zijn beoordeeld en gemarkeerd als relevant of niet-relevant. De documenten van de besturingsset worden niet gebruikt om het systeem te trainen. Ze worden gebruikt om de voorspellingen van het systeem te beoordelen, zodat de training kan worden beëindigd wanneer de voordelen van aanvullende training niet langer opwegen tegen de kosten van extra training. Training kan zijn met willekeurig geselecteerde documenten, bekend als Simple Passive Learning (SPL), of het kan documenten bevatten die door het systeem zijn gekozen om de leerefficiëntie te optimaliseren, bekend als Simple Active Learning (SAL).

    TAR 2.0 maakt gebruik van een aanpak genaamd Continuous Active Learning® (CAL®), wat betekent dat er geen scheiding is tussen training en beoordeling. Het systeem blijft overal leren. Hoewel veel benaderingen kunnen worden gebruikt om documenten te selecteren voor beoordeling, is een belangrijk onderdeel van CAL® vele herhalingen om te voorspellen welke documenten hoogstwaarschijnlijk relevant zijn, ze te bekijken en de voorspellingen bij te werken. In tegenstelling tot TAR 1.0 is TAR 2.0 meestal zeer efficiënt, zelfs als de prevalentie laag is. Aangezien er geen scheiding is tussen training en beoordeling, heeft TAR 2.0 geen controleset nodig. Het genereren van een besturingsset kan inhouden dat een groot aantal niet-relevante documenten wordt herzien (vooral wanneer de prevalentie laag is), dus het is wenselijk om controlesets te vermijden.

    TAR 3.0 vereist een hoogwaardig conceptueel clusteralgoritme dat nauw gerichte clusters van vaste grootte vormt in conceptruimte. Het past de TAR 2.0-methodologie toe op alleen de clustercentra, wat ervoor zorgt dat een verscheidenheid aan potentieel relevante documenten wordt beoordeeld. Zodra er geen relevante clustercentra meer zijn gevonden, worden de herziene clustercentra gebruikt als trainingsdocumenten om voorspellingen te doen voor de volledige documentpopulatie. Er is geen bedieningsset nodig: het systeem is goed opgeleid als er geen extra relevante clustercentra kunnen worden gevonden. Analyse van de clustercentra die werden beoordeeld, geeft een schatting van de prevalentie en het aantal niet-relevante documenten dat zou worden geproduceerd als documenten uitsluitend op basis van de voorspellingen zouden worden geproduceerd zonder menselijke beoordeling. De gebruiker kan besluiten documenten te produceren (niet geïdentificeerd als potentieel bevoorrecht) zonder beoordeling, vergelijkbaar met SAL van TAR 1.0 (maar zonder controleset), of hij/zij kan besluiten documenten te beoordelen die te veel risico lopen niet-relevant te zijn (die kunnen worden gebruikt als aanvullende training voor het systeem, d.w.z. CAL®). Het belangrijkste punt is dat de gebruiker de informatie heeft die hij/zij nodig heeft om een beslissing te nemen over hoe hij verder moet gaan na het voltooien van de beoordeling van de clustercentra die waarschijnlijk relevant zijn, en niets dat gedaan is voordat dat punt ongeldig wordt door de beslissing (vergelijk met beginnen met TAR 1.0, een controleset bekijken, vinden dat de voorspellingen niet goed genoeg zijn om documenten zonder beoordeling te produceren en vervolgens over te schakelen naar TAR 2.0, waardoor de besturingsset vrijwel nutteloos is).

    TAR-toepassingen (12)

    TAR-technologieën, protocollen en workflows kunnen effectief worden gebruikt om eDiscovery-professionals te helpen veel taken voor het ontdekken van gegevens en juridische detectie uit te voeren. Negen algemeen overwogen voorbeelden van TAR-gebruik zijn:

    Identificatie van relevante documenten

    Early case assessment/onderzoek

    Prioritering voor beoordeling

    Categorisatie (op basis van problemen, voor vertrouwelijkheid of privacy)

    Privilege recensie

    Kwaliteitscontrole en kwaliteitsborging

    Herziening van inkomende producties

    Voorbereiding van de verwijdering/proefperiode

    Informatiebeheer en gegevensverwerking

    Enquête-informatie (13,14,15,16,17,18, 19, 20, 21)

    Referenties

    (1) Grossman, M. en Cormack, G. (2013). De Grossman-Cormack Woordenlijst van Technology-Assisted Review. [ebook] Federal Courts Law Review. Beschikbaar op: http://www.fclr.org/fclr/articles/html/2010/grossman.pdf [Toegang tot 31 augustus 2018].

    (2) Dimm, B. (2018). Expertise op het gebied van voorspellende codering [e-mail].

    (3) Roitblat, H. (2013). Inleiding tot Predictive Coding. [ebook] OrCateC. Beschikbaar op: 31 aug. 2018].

    (4) Tredennick, J. en Pickens, J. (2017). Deep Learning in E-Discovery: Voorbijgaan aan de hype. [online] CatalystSecure.com. Beschikbaar op: 31 aug. 2018].

    (5) Grossman, M. en Cormack, G. (2017). Technology-Assisted Review in Electronic Discovery. [ebook] Beschikbaar op: 31 augustus 2018].

    (6) Grossman, M. en Cormack, G. (2016). Continu actief leren voor TAR. [ebook] Praktische wet. Beschikbaar op: 31 aug. 2018].

    (7) Grossman, M. en Cormack, G. (2016). Schaalbaarheid van continu actief leren voor betrouwbare tekstclassificatie met hoge terugroepfunctie. [ebook] Beschikbaar op: 3 september 2018].

    (8) Losey, R., Sullivan, J. en Reichenberger, T. (2015). e-Discovery Team op TREC 2015 Total Recall Track. [ebook] Beschikbaar op: 1 september 2018].

    (9) „CONTINUOUS ACTIEF LEREN Handelsmerk van Maura Grossman en Gordon V. Cormack - Registratienummer 5876987 - Serienummer 86634255። Justia Handelsmerken”. Trademarks.Justia.com, 2020, 12 februari 2020].

    (10) „CAL Handelsmerk van Maura Grossman en Gordon V. Cormack - Registratienummer 5876988 - Serienummer 86634265። Justia Handelsmerken”. Trademarks.Justia.com, 2020, 12 februari 2020].

    (11) Dimm, B. (2016), TAR 3.0 Prestaties. [online] Clustify Blog — eDiscovery, documentclustering, voorspellende codering, informatie ophalen en softwareontwikkeling. Beschikbaar op: 18 feb. 2019].

    (12) Electronic Discovery Reference Model (EDRM) (2019). Richtlijnen voor Technology Assisted Review (TAR). [online] Beschikbaar op: 18 Feb. 2019].

    (13) Dimm, B. (2018). TAR, proportionaliteit en slechte algoritmen (1-NN). [online] Clustify Blog — eDiscovery, documentclustering, voorspellende codering, informatie ophalen en softwareontwikkeling. Beschikbaar op: 31 aug. 2018].

    (14) Robinson, R. (2013). Running Results: Predictive Coding Oding One-Question Provider [online] ComplexDiscovery: eDiscovery Informatie. Beschikbaar op: 31 aug. 2018].

    (15) Robinson, R. (2018). Een lijst met hardlooplijsten: meer dan 100 eDiscovery Providers. [online] ComplexDiscovery: eDiscovery Informatie. Beschikbaar op: 31 aug. 2018].

    (16) Robinson, R. (2018) Relatief gesproken: Predictive Coding Technologies and Protocols Survey Results [online] ComplexDiscovery: eDiscovery Information. Beschikbaar op: 18 feb. 2019].

    (17) Robinson, R. (2019) Actief leren? Voorspellende coderingstechnologieën en protocollen Survey Results [online] ComplexDiscovery: eDiscovery Information. Beschikbaar op: 22 Aug. 2019]

    (18) Robinson, R. (2019) Van platforms naar workflows: enquête over voorspellende coderingstechnologieën en protocollen - Herfst 2019 resultaten [online] ComplexDiscovery: eDiscovery Information. Beschikbaar op: 12 feb. 2020].

    (19) Robinson, R. (2020) Is het allemaal relatief? Voorspellende coderingstechnologieën en protocollen Survey - Voorjaarsresultaten [online] ComplexDiscovery: eDiscovery Information. Beschikbaar op: [Toegang tot 7 augustus 2020].

    (20) Robinson, R. (2020) Een breder net gieten? Voorspellende coderingstechnologieën en protocollen Survey - Herfst 2020 [online] ComplexDiscovery: eDiscovery Information. Beschikbaar op: [Toegang tot 5 februari 2021].

    (21) Robinson, R. (2021) Koud weer vangst? Voorspellende coderingstechnologieën en protocollen Survey - Voorjaar 2021 [online] ComplexDiscovery: eDiscovery Information. Beschikbaar op: [Toegang tot 8 augustus 2021].

    Klik hier voor specifieke toevoegingen, correcties en updates.

    * Respondenten van de Predictive Coding Survey: zes enquêtes

    Respondenten voor predictive coding enquête — Zes enquêtes

    Bron: ComplexDiscovery

    Naar voren leunen? Het strategisch plan CISA 2023-2025

    The purpose of the CISA Strategic Plan is to communicate the...

    Voortdurende risicoverbetering? Q3 Cyber Round-Up van Cowbell Cyber

    According to Manu Singh, director of risk engineering at Cowbell, "Every...

    Een uitgebreide bron voor cyberontdekking? De DoD-beleidstabel voor cyberbeveiliging van CSIAC

    The Cyber Security and Information Systems Information Analysis Center (CSIAC) is...

    Snel draaiende cyberverzekering? Q2 Cyber Round-Up van Cowbell Cyber

    According to Isabelle Dumont, SVP of Marketing and Technology Partners at...

    Een onthullende reactie? Nuix reageert op ASX-verzoek om informatie

    The following investor news update from Nuix shares a written response...

    Verslagen onthullen? Nuix merkt persspeculatie op

    According to a September 9, 2022 market release from Nuix, the...

    HayStackID® neemt Business Intelligence Associates over

    According to HaystackID CEO Hal Brooks, “BIA is a leader in...

    Eén groot software- en cloudbedrijf? OpenText om microfocus te verwerven

    According to OpenText CEO & CTO Mark J. Barrenechea, “We are...

    Onderweg? 2022 eDiscovery Market Kinetics: vijf interessegebieden

    Recently ComplexDiscovery was provided an opportunity to share with the eDiscovery...

    Vertrouw end op het proces? 2021 eDiscovery Processing Taak-, bestedings- en kostengegevens

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    Het jaar in review? 2021 eDiscovery Review Taak-, uitgaven- en kostengegevenspunten

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    Een blik op eDiscovery Collection in 2021: gegevenspunten voor taken, uitgaven en kosten

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    Vijf geweldige artikelen over cyber-, data- en juridische ontdekkingen voor september 2022

    From privacy legislation and special masters to acquisitions and investigations, the...

    Vijf geweldige lezingen over cyber-, data- en juridische ontdekking voor augustus 2022

    From AI and Big Data challenges to intriguing financial and investment...

    Vijf geweldige lezingen over cyber-, data- en juridische ontdekking voor juli 2022

    From lurking business undercurrents to captivating deepfake developments, the July 2022...

    Vijf geweldige lezingen over cyber, data en juridische ontdekking voor juni 2022

    From eDiscovery ecosystem players and pricing to data breach investigations and...

    Koelere temperaturen? Resultaten van de eDiscovery Business Confidence Survey in

    Since January 2016, 2,874 individual responses to twenty-eight quarterly eDiscovery Business...

    Verbuiging of doorbuiging? Een geaggregeerd overzicht van acht halfjaarlijkse prijsenquêtes voor eDiscovery

    Initiated in the winter of 2019 and conducted eight times with...

    Veranderende stromingen? Achttien observaties over het vertrouwen van bedrijven in eDiscovery in de zomer van 2022

    In the summer of 2022, 54.8% of survey respondents felt that...

    Uitdagende varianten? Problemen die de bedrijfsprestaties van eDiscovery beïnvloeden: een overzicht van de zomer 2022

    In the summer of 2022, 28.8% of respondents viewed increasing types...

    Nucleaire opties? Conflictbeoordelingen in Oekraïne op kaarten (17 - 21 september 2022)

    According to a recent update from the Institute for the Study...

    Massagraven en martelkamers? Conflictbeoordelingen in Oekraïne op kaarten (12 - 16 september 2022)

    According to a recent update from the Institute for the Study...

    Op de vlucht? Conflictbeoordelingen in Oekraïne in kaarten (7 - 11 september 2022)

    According to a recent update from the Institute for the Study...

    Tastbare afbraak? Conflictbeoordelingen in Oekraïne in kaarten (2 - 6 september 2022)

    According to a recent update from the Institute for the Study...