É tudo relativo? Pesquisa de Tecnologias e Protocolos de Codificação Preditiva — Resultados da Primavera de 2020

The Predictive Coding Technologies and Protocols Survey is a non-scientific survey designed to help provide a general understanding of the use of predictive coding technologies, protocols, and workflows by data discovery and legal discovery professionals within the eDiscovery ecosystem.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Nota do Editor: Esta é a quarta Pesquisa de Codificação Preditiva e Tecnologias e Protocolos realizada pela ComplexDiscovery. Iniciada no outono de 2018 e atualizada semestralmente, esta iteração da pesquisa contou com 63 profissionais de dados e descobertas legais compartilhando sua compreensão e experiência como parte da pesquisa de quatro questões. A seguir, estão os resultados da pesquisa da primavera de 2020, com a esperança de que os resultados gerais e não científicos da pesquisa possam ajudar os profissionais de eDiscovery, pois consideram plataformas de codificação preditiva, tecnologias, protocolos, fluxos de trabalho e usos.

A Pesquisa de Tecnologias e Protocolos de Codificação Preditiva da Primavera de 2020

O Predictive Coding Technologies and Protocols Survey é uma pesquisa não científica projetada para ajudar a fornecer uma compreensão geral do uso de tecnologias de codificação preditiva, protocolos e fluxos de trabalho por profissionais de descoberta de dados e descoberta legal dentro do ecossistema de eDiscovery. A pesquisa da primavera de 2020 foi aberta de 10 de fevereiro de 2020, até 12 de fevereiro de 2020, com indivíduos convidados a participar diretamente do ComplexDiscovery.

Projetado para fornecer uma compreensão geral das tecnologias e protocolos de codificação preditiva, a pesquisa teve dois objetivos educacionais primários:

Fornecer uma lista consolidada de potenciais definições de tecnologia de codificação preditiva, protocolo e fluxo de trabalho. Embora não seja abrangente ou abrangente, a listagem foi avaliada com especialistas de codificação preditiva da indústria selecionados para a completude e precisão, portanto, parece ser rentável para uso em esforços educacionais.

Para perguntar aos profissionais do ecossistema de Descoberta Eletrônica sobre suas preferências em relação a plataformas de codificação preditiva, tecnologias, protocolos, fluxos de trabalho e áreas de uso.

A pesquisa ofereceu aos respondentes a oportunidade de fornecer informações de fundo de codificação preditiva, incluindo sua plataforma de codificação preditiva primária, bem como colocou quatro perguntas específicas aos respondentes. Essas perguntas são:

Quais tecnologias de codificação preditiva são utilizadas pela sua plataforma de eDiscovery?

Quais protocolos de revisão assistida pela tecnologia são utilizados na sua entrega de codificação preditiva?

Qual é o fluxo de trabalho de revisão assistida pela tecnologia principal utilizado em sua entrega de codificação preditiva?

Quais são as áreas em que você usa tecnologias de revisão assistida por tecnologia, protocolos e fluxos de trabalho?

Fechado em 12 de fevereiro de 2020, a pesquisa da primavera de 2020 teve 63 respondentes.

Principais resultados e observações

Plataforma de codificação preditiva primária (Gráfico 1)

90,47% dos respondentes relataram ter pelo menos uma plataforma primária para codificação preditiva.

Havia 20 plataformas diferentes relatadas como uma plataforma de codificação preditiva primária pelos respondedores.

A relatividade foi relatada como plataforma de codificação preditiva primária por 38,10% dos respondentes da pesquisa.

As duas principais plataformas foram relatadas como uma plataforma de codificação preditiva primária por 53,97% dos respondentes de pesquisa.

9,52% dos respondentes relataram não ter nenhuma plataforma primária para codificação preditiva.

Emprego em tecnologia de codificação preditiva (Gráfico 2)

Todas as tecnologias de codificação preditiva listadas foram relatadas como sendo usadas por pelo menos um respondente de pesquisa.

A Aprendizagem Ativa foi relatada como a tecnologia de codificação preditiva mais utilizada, com 85,71% dos respondentes utilizando-a em seus esforços de codificação preditiva.

34,92% dos respondentes relataram usar apenas uma tecnologia de codificação preditiva em seus esforços de codificação preditiva.

57,14% dos respondentes relataram usar mais de uma tecnologia de codificação preditiva em seus esforços de codificação preditiva.

7,94% dos respondentes não relataram usar nenhuma tecnologia de codificação preditiva específica.

Protocolo de Revisão Assistida Tecnológica Emprego (Gráfico 3)

Todos os protocolos assistidos por tecnologia listados para codificação preditiva foram relatados como sendo utilizados por pelo menos um respondente de pesquisa.

O Activous Active Learning® (CAL®) foi relatado como o protocolo de codificação preditiva mais utilizado, com 90,48% dos respondentes utilizando-o em seus esforços de codificação preditiva.

57,14% dos respondentes relataram usar apenas um protocolo de codificação preditiva em seus esforços de codificação preditiva.

41,27% dos respondentes relataram usar mais de um protocolo de codificação preditiva em seus esforços de codificação preditiva.

1,59% dos respondentes relataram não usar nenhum protocolo de codificação preditiva.

Emprego de fluxo de trabalho de revisão assistida por tecnologia (Gráfico 4)

73,02% dos respondentes relataram usar a Technology-Assisted Review (TAR) 2.0 como um fluxo de trabalho principal na entrega de codificação preditiva.

7,94% dos respondentes relataram usar TAR 1.0 e 9,52% dos respondentes relataram usar o TAR 3.0 como fluxo de trabalho primário na entrega de codificação preditiva.

9,52% dos respondentes não relataram o uso do TAR 1.0, TAR 2.0 ou TAR 3.0 como um fluxo de trabalho principal na entrega da codificação preditiva.

Usos de revisão assistida por tecnologia (Gráfico 5)

93,65% dos respondentes relataram usar revisão assistida por tecnologia em mais de uma área de dados e descoberta legal.

96,83% dos respondentes referiram utilizar revisão assistida por tecnologia para a identificação de documentos relevantes.

14,29% dos respondentes relataram usar revisão assistida por tecnologia para controle de informações e eliminação de dados.

Visão geral do Respondente de Pesquisa de Tecnologia de Codificação Preditiva e Protocolo (Gráfico 6)

41,27%% dos respondentes eram de escritórios de advocacia.

38,10% dos respondentes eram de organizações de software ou provedores de serviços.

Os restantes 20,63% dos respondentes faziam parte de uma consultoria (14,29%), de uma corporação (4,76%), do governo (0%) ou de outro tipo de entidade (1,59%).

Gráficos de pesquisa

(Os gráficos podem ser expandidos para visualização detalhada.)

Gráfico 1: Nome da Plataforma Primária de Codificação Preditiva

1-Plataforma Primária-Preditivo-Coding-Primavera-2020

Gráfico 2: Quais tecnologias de codificação preditiva são utilizadas pela sua plataforma de eDiscovery?

2-Tecnologia de código preditivo-usada-primavera-2020

Gráfico 3: Quais protocolos de revisão assistida pela tecnologia são utilizados em sua entrega de codificação preditiva?

3-Tecnologia-Assistida Review-Protocol-Usado - Primavera-2020

Gráfico 4: Qual é o fluxo de trabalho de revisão assistida pela tecnologia principal utilizado em sua entrega de codificação preditiva?

4 Tecnologia-Assistida Review-Workflow Usage-Primavera-2020

Gráfico 5: Quais são as áreas em que você usa tecnologias de revisão assistida por tecnologia, protocolos e fluxos de trabalho?

5 - Revista-Assistida Tecnologia-Usos - Primavera-2020

Gráfico 6: Visão geral do respondente do questionário

6-Tecnologias de código preditivo-e-Protocolos-Visão geral de inquéritos primavera-2020

Tecnologias e protocolos de codificação preditiva (pesquisa em segundo plano)

Conforme definido no Glossário Grossman-Cormack of Technology-Assisted Review (1), Predictive Coding é um termo específico da indústria geralmente usado para descrever um processo de revisão assistida por tecnologia envolvendo o uso de um algoritmo de aprendizado de máquina para distinguir documentos relevantes de não-relevantes, com base em um assunto codificação do especialista matéria de um conjunto de formação de documentos. Esta definição de codificação preditiva fornece uma descrição de linha de base que identifica uma função específica que um conjunto geral de algoritmos de aprendizado de máquina comumente aceitos pode usar em uma revisão assistida por tecnologia (TAR).

Com a crescente conscientização e uso da codificação preditiva na arena legal hoje, parece que é cada vez mais importante para os profissionais de descoberta eletrônica ter uma compreensão geral das tecnologias que podem ser implementadas em plataformas de descoberta eletrônica para facilitar a codificação preditiva de informações armazenadas eletronicamente. Esta compreensão geral é essencial, uma vez que cada abordagem algorítmica potencial tem vantagens e desvantagens de eficiência que podem afetar a eficiência e eficácia da codificação preditiva.

Para ajudar no desenvolvimento desta compreensão geral das tecnologias de codificação preditiva e proporcionar uma oportunidade para os provedores de descoberta eletrônica compartilharem as tecnologias e protocolos que eles usam em e com suas plataformas para realizar codificação preditiva, as seguintes listas de trabalho de codificação preditiva e protocolos TAR são fornecidos para seu uso. Listas de trabalho sobre fluxos de trabalho e usos de codificação preditiva também são incluídas para sua consideração, pois ajudam a definir como as tecnologias de codificação preditiva e os protocolos TAR são implementados e usados.

Uma lista de trabalho de tecnologias de codificação preditiva (1,2,3,4)

Agregada a partir de especialistas em descoberta eletrônica com base em publicações profissionais e conversas pessoais, fornecida abaixo está uma lista de trabalho não-tudo inclusiva de tecnologias identificadas de aprendizado de máquina que foram aplicadas ou têm potencial para ser aplicadas à disciplina de eDiscovery para facilitar codificação preditiva. Esta lista de trabalho foi projetada para fornecer um ponto de referência para tecnologias de codificação preditiva identificadas e pode, ao longo do tempo, incluir adições, ajustes e emendas com base no feedback de especialistas e organizações que aplicam e implementam essas tecnologias mainstream em suas plataformas específicas de eDiscovery.

Listado em Ordem Alfabética

Aprendizagem ativa: um processo, tipicamente iterativo, pelo qual um algoritmo é usado para selecionar documentos que devem ser revisados para treinamento com base em uma estratégia para ajudar o algoritmo de classificação a aprender de forma eficiente.

Árvore de Decisão: Um método passo a passo de distinguir entre documentos relevantes e não relevantes, dependendo da combinação de palavras (ou outras características) que eles contêm. Uma Árvore de Decisão para identificar documentos relativos a derivados financeiros pode primeiro determinar se um documento continha ou não a palavra “swap”. Se isso acontecer, a Árvore de Decisão poderá então determinar se o documento continha ou não “crédito”, e assim por diante. Uma Árvore de Decisão pode ser criada por meio de engenharia de conhecimento ou aprendizado de máquina.

Classificador de Vizinho K-mais próximo (K-nn): Um algoritmo de classificação que analisa os documentos de exemplo k que são mais semelhantes (mais próximos) ao documento que está sendo classificado para determinar a melhor classificação para o documento. Se k for muito pequeno (por exemplo, k=1), pode ser extremamente difícil obter alta recall.

Análise Semântica Latente (LSA): Uma representação matemática de documentos que trata palavras altamente correlacionadas (ou seja, palavras que tendem a ocorrer nos mesmos documentos) como sendo, em certo sentido, equivalentes ou intercambiáveis. Essa equivalência ou intercambiabilidade pode permitir que algoritmos identifiquem documentos como sendo conceitualmente semelhantes, mesmo quando eles não estão usando as mesmas palavras (por exemplo, porque sinônimos podem ser altamente correlacionados), embora também descarte algumas informações potencialmente úteis e pode levar a resultados indesejáveis causados por correlações espúrias.

Regressão Logística: Um algoritmo de aprendizado supervisionado de última geração para aprendizado de máquina que estima a probabilidade de um documento ser relevante, com base nos recursos que ele contém. Em contraste com o algoritmo Naïve Bayes, a Regressão Logística identifica características que discriminam documentos relevantes e não relevantes.

Classificador Bayesiano Naïve: Um sistema que examina a probabilidade de que cada palavra em um novo documento veio da distribuição de palavras derivada de um documento responsivo treinado ou documentos não responsivos treinados. O sistema é ingénuo no sentido de que assume que todas as palavras são independentes umas das outras.

Rede Neural: Uma Rede Neural Artificial (ANN) é um modelo computacional. Baseia-se na estrutura e funções das redes neurais biológicas. Funciona como o cérebro humano processa informações. Ele inclui um grande número de unidades de processamento conectadas que trabalham juntas para processar informações.

Análise Semântica Latente Probabilística (PLSA): Isso é semelhante em espírito ao LSA, mas usa um modelo probabilístico para alcançar resultados que se espera que sejam melhores.

Florestas Aleatórias: Um método de aprendizagem de conjunto para classificação, regressão e outras tarefas, que operam através da construção de uma infinidade de árvores de decisão no tempo de treinamento e saída da classe que é o modo das classes (classificação) ou previsão média (regressão) das árvores individuais. Florestas de decisão aleatória corrigem o hábito das árvores de decisão de se sobrepor ao seu conjunto de treinamento.

Feedback de Relevância: Um processo de aprendizagem ativo no qual os documentos com maior probabilidade de relevância são codificados por um humano e adicionados ao conjunto de treinamento.

Máquina Vector de Suporte: Uma abordagem matemática que procura encontrar uma linha que separa documentos responsivos de não-responsivos para que, idealmente, todos os documentos responsivos estejam de um lado da linha e todos os não-responsivos estejam do outro lado.

Protocolos gerais TAR (5,6,7,8,9,10)

Além disso, essas tecnologias são geralmente empregadas como parte de um protocolo TAR que determina como as tecnologias são usadas. Exemplos de protocolos TAR incluem:

Listado em Ordem Alfabética

Continuous Active Learning® (CAL®): Em CAL®, o método TAR desenvolvido, usado e defendido por Maura R. Grossman e Gordon V. Cormack, após o treinamento inicial, o aluno seleciona repetidamente os documentos mais prováveis (que ainda não foram considerados) para revisão, codificação e treinamento, e continua a fazê-lo até que não consiga encontrar mais documentos relevantes. Geralmente, não há uma segunda revisão porque, no momento em que o aluno pára de aprender, todos os documentos considerados relevantes pelo aluno já foram identificados e revisados manualmente.

Método multimodal híbrido: uma abordagem desenvolvida pela equipe de e-Discovery (Ralph Losey) que inclui todos os tipos de métodos de pesquisa, com dependência primária colocada na codificação preditiva e no uso de documentos de alto nível para treinamento ativo contínuo.

Scalable Continuous Active Learning (S-CAL): A diferença essencial entre S-CAL e CAL® é que, para S-CAL, apenas uma amostra finita de documentos de cada lote sucessivo é selecionada para rotulagem, e o processo continua até que a coleta — ou uma grande amostra aleatória da coleção — esteja esgotada. Juntas, as amostras finitas formam uma amostra estratificada da população de documentos, a partir da qual pode ser obtida uma estimativa estatística de ρ.

Aprendizagem Ativa Simples (SAL): Nos métodos SAL, após o treinamento inicial, o aluno seleciona os documentos a serem revisados e codificados pelo professor, e utilizados como exemplos de treinamento, e continua a selecionar exemplos até que seja suficientemente treinado. Normalmente, os documentos que o aluno escolhe são aqueles sobre os quais o aluno é menos certo e, portanto, a partir dos quais ele aprenderá mais. Uma vez suficientemente treinado, o aluno é então usado para rotular todos os documentos da coleção. Tal como acontece com o SPL, os documentos rotulados como relevantes são geralmente reexaminados manualmente.

Aprendizagem Passiva Simples (SPL): Em métodos de aprendizagem passiva simples (“SPL”), o professor (ou seja, operador humano) seleciona os documentos a serem usados como exemplos de formação; o aluno é treinado usando esses exemplos, e uma vez suficientemente treinado, é usado para rotular cada documento da coleção como relevante ou não - relevante. Geralmente, os documentos rotulados como relevantes pelo aluno são revisados manualmente. Esta revisão manual representa uma pequena fração da coleção e, portanto, uma pequena fração do tempo e custo de uma revisão manual exaustiva.

Fluxos de trabalho TAR (11)

Os fluxos de trabalho TAR representam a aplicação prática de tecnologias e protocolos de codificação preditiva para definir abordagens para concluir tarefas de codificação preditiva. Três exemplos de fluxos de trabalho TAR incluem:

O TAR 1.0 envolve uma fase de treinamento seguida de uma fase de revisão com um conjunto de controle sendo usado para determinar o ponto ideal quando você deve mudar de treinamento para revisão. O sistema não aprende mais uma vez que a fase de treinamento é concluída. O conjunto de controle é um conjunto aleatório de documentos que foram revisados e marcados como relevantes ou não relevantes. Os documentos do conjunto de controle não são usados para treinar o sistema. Eles são usados para avaliar as previsões do sistema para que o treinamento possa ser encerrado quando os benefícios de treinamento adicional não superam mais o custo de treinamento adicional. O treinamento pode ser realizado com documentos selecionados aleatoriamente, conhecidos como Aprendizagem Passiva Simples (SPL), ou pode envolver documentos escolhidos pelo sistema para otimizar a eficiência da aprendizagem, conhecido como Aprendizagem Ativa Simples (SAL).

O TAR 2.0 usa uma abordagem chamada Continuous Active Learning® (CAL®), o que significa que não há separação entre treinamento e revisão — o sistema continua aprendendo ao longo do tempo. Embora muitas abordagens possam ser usadas para selecionar documentos para revisão, um componente significativo da CAL® é muitas iterações de prever quais documentos são mais propensos a serem relevantes, revisá-los e atualizar as previsões. Ao contrário do TAR 1.0, o TAR 2.0 tende a ser muito eficiente mesmo quando a prevalência é baixa. Como não há separação entre treinamento e revisão, TAR 2.0 não requer um conjunto de controle. Gerar um conjunto de controle pode envolver a revisão de um número grande (especialmente quando a prevalência é baixa) de documentos não relevantes, portanto, evitar conjuntos de controle é desejável.

O TAR 3.0 requer um algoritmo de agrupamento conceitual de alta qualidade que forma clusters estreitamente focados de tamanho fixo no espaço conceito. Ele aplica a metodologia TAR 2.0 apenas aos centros de cluster, o que garante que um conjunto diversificado de documentos potencialmente relevantes seja revisado. Quando não for possível encontrar centros de cluster mais relevantes, os centros de cluster revisados são usados como documentos de treinamento para fazer previsões para a população completa de documentos. Não há necessidade de um conjunto de controle — o sistema é bem treinado quando nenhum centro de cluster relevante adicional pode ser encontrado. A análise dos centros de cluster que foram revisados fornece uma estimativa da prevalência e do número de documentos não relevantes que seriam produzidos se os documentos fossem produzidos com base puramente nas previsões sem revisão humana. O usuário pode decidir produzir documentos (não identificados como potencialmente privilegiados) sem revisão, semelhante ao SAL do TAR 1.0 (mas sem um conjunto de controle), ou pode decidir revisar documentos que têm muito risco de não serem relevantes (que podem ser usados como treinamento adicional para o sistema, ou seja, CAL®). O ponto-chave é que o usuário tem as informações que ele precisa para tomar uma decisão sobre como proceder após a conclusão da revisão dos centros de cluster que são susceptíveis de ser relevantes, e nada feito antes que esse ponto se torne invalidado pela decisão (compare com começar com TAR 1.0, revisar um conjunto de controle, encontrar que as previsões não são boas o suficiente para produzir documentos sem revisão e, em seguida, mudar para o TAR 2.0, o que torna o conjunto de controle praticamente inútil).

Usos do TAR (12)

As tecnologias, protocolos e fluxos de trabalho TAR podem ser usados de forma eficaz para ajudar os profissionais de eDiscovery a realizar muitas tarefas de detecção de dados e detecção legal. Nove exemplos comumente considerados de uso de TAR incluem:

Identificação dos Documentos Relevantes

Avaliação antecipada de caso/investigação

Priorização para revisão

Categorização (Por Questões, Confidencialidade ou Privacidade)

Revisão de Privilégio

Controle de qualidade e garantia de qualidade

Revisão de produções recebidas

Preparação de Disposição/Teste

Controle de informações e eliminação de dados

Informações da pesquisa (13,14,15,16,17,18)

Referências

(1) Grossman, M. e Cormack, G. (2013). O Glossário Grossman-Cormack de Revisão Tecnológica Assistida. [ebook] Tribunais Federal Law Review. Disponível em: http://www.fclr.org/fclr/articles/html/2010/grossman.pdf [Acessado 31 Ago. 2018].

(2) Dimm, B. (2018). Experiência em Codificação Preditiva. [e-mail].

(3) Roitblat, H. (2013). Introdução à Codificação Preditiva. [ebook] orCatec. Disponível em: 31 de agosto de 2018].

(4) Tredennick, J. e Pickens, J. (2017). Aprendizagem profunda em e-Discovery: ultrapassando o hype. [online] CatalystSecure.com. Disponível em: 31 de agosto de 2018].

(5) Grossman, M. e Cormack, G. (2017). Revisão assistida por tecnologia em descoberta eletrônica. [ebook] Disponível em: 31 Ago. 2018].

(6) Grossman, M. e Cormack, G. (2016). Aprendizagem Activa Contínua para TAR. [ebook] Direito Prático. Disponível em: 31 de agosto de 2018].

(7) Grossman, M. e Cormack, G. (2016). Escalabilidade da Aprendizagem Activa Contínua para Classificação Confiável de Texto com Recall. [ebook] Disponível em: 3 Set. 2018].

(8) Losey, R., Sullivan, J. e Reichenberger, T. (2015). Equipe de e-Discovery na TREC 2015 Total Recall Track. [ebook] Disponível em: [Acessado 1 Set. 2018].

(9) “Marca de aprendizagem ativa contínua de Maura Grossman e Gordon V. Cormack - Número de registo 5876987 - Número de série 86634255:: Marcas comerciais Justia”. Trademarks.Justia.com, 2020, [Acessado 12 Fev. 2020].

(10) “Marca comercial da CAL de Maura Grossman e Gordon V. Cormack - Número de registo 5876988 - Número de série 86634265:: Marcas comerciais Justia”. Trademarks.Justia.com, 2020, [Acessado 12 Fev. 2020].

(11) Dimm, B. (2016), TAR 3.0 Desempenho. [online] Clustify Blog — eDiscovery, Clustering de Documentos, Codificação Preditiva, Recuperação de Informações e Desenvolvimento de Software. Disponível em: 18 de Fevereiro de 2019].

(12) Modelo de referência de descoberta electrónica (EDRM) (2019). Diretrizes de revisão assistida por tecnologia (TAR). [online] Disponível em: 18 Fev. 2019].

(13) Dimm, B. (2018). TAR, proporcionalidade e algoritmos inadequados (1-NN). [online] Clustify Blog — eDiscovery, Clustering de Documentos, Codificação Preditiva, Recuperação de Informações e Desenvolvimento de Software. Disponível em: 31 de agosto de 2018].

(14) Robinson, R. (2013). Resultados em Execução: Pesquisa de Implementação do Provedor de Codificação Preditiva com uma Pergunta. [online] ComplexDiscovery: Informações de Descoberta Eletrônica. Disponível em: 31 de agosto de 2018].

(15) Robinson, R. (2018). Uma lista em execução: mais de 100 provedores de eDiscovery. [online] ComplexDiscovery: Informações de Descoberta Eletrônica. Disponível em: 31 de agosto de 2018].

(16) Robinson, R. (2018) Relativamente falando: Tecnologias de codificação preditiva e Protocolos Resultados da pesquisa [on-line] ComplexDiscovery: Informações sobre eDiscovery. Disponível em: 18 de Fevereiro de 2019].

(17) Robinson, R. (2019) Aprendizagem Ativa? Tecnologias e protocolos de codificação preditiva Resultados da pesquisa [online] Descoberta complexa: Informações de descoberta eletrônica. Disponível em: 22 Ago. 2019]

(18) Robinson, R. (2019) De plataformas para fluxos de trabalho: Predictive Coding Technologies and Protocols Survey - Outono 2019 Resultados [online] ComplexDiscovery: eDiscovery Information. Disponível em: [Acesso a 12 Fev. 2020].

Clique aqui para fornecer adições, correções e atualizações específicas.

Fonte: ComplexDiscovery